Вимоги: Коли підприємства створюють базу знань RAG, важливо обрати відповідну модель embedding embedding, оскільки продуктивність embedding визначає точність отримання і опосередковано — надійність результату великих моделей. Поширені моделі: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Навіщо вбудовувати модель?
Комп'ютери можуть обробляти лише числові операції і не можуть безпосередньо розуміти нечислові форми даних, такі як природна мова, текст, зображення та аудіо. Тому нам потрібно «векторизувати», щоб перетворити ці дані у числові форми, які комп'ютери можуть розуміти та обробляти, тобто відображати їх у математичні векторні представлення. Цей процес зазвичай здійснюється за допомогою вбудованих моделей, які ефективно захоплюють семантичну інформацію та внутрішні структури даних.
Роль моделей вкладення полягає не лише в тому, щоб перетворювати дискретні дані (такі як слова, фрагменти зображень або аудіофрагменти) у безперервні низьковимірні вектори, а й зберігати семантичні зв'язки між даними у векторному просторі. Наприклад, у обробці природної мови моделі вбудовування можуть генерувати вектори слів, що робить семантично схожі слова ближчими один до одного у векторному просторі. Таке ефективне представлення дозволяє комп'ютерам виконувати складні розрахунки та аналіз на основі цих векторів, тим самим краще розуміючи та обробляючи складні дані, такі як текст, зображення чи звуки.
Впроваджуючи векторизацію моделі, комп'ютери можуть не лише ефективно обробляти великомасштабні дані, а й демонструвати вищі можливості продуктивності та узагальнення у різних завданнях (таких як класифікація, пошук, генерація тощо).
Оцінка embed-моделі
Щоб оцінити якість вбудованої моделі, має існувати чіткий набір критеріїв. MTEB та C-MTEB зазвичай використовуються для бенчмаркінгу.
MTEB
Huggingface має стандарт оцінки MTEB (Massive Multilingual Text Embedding Benchmark), який є відносно визнаним у галузі стандартом і може використовуватися як референс. Він охоплює 8 завдань вбудовування, загалом 58 наборів даних і 112 мов, що робить його найповнішим бенчмарком вбудовування тексту на сьогодні.
Список:Вхід за гіперпосиланням видно. Адреса GitHub:Вхід за гіперпосиланням видно.
C-MTEB
C-MTEB — це найповніший китайський еталонний орієнтир семантичного вектора, що охоплює 6 категорій завдань оцінки (пошук, сортування, схожість речень, міркування, кластеризація, кластеризація) та 35 наборів даних.
Документи C-MTEB:Вхід за гіперпосиланням видно. Коди та таблиці лідерів:Вхід за гіперпосиланням видно.(Багато адрес в Інтернеті старі)
|