Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 1262|Відповідь: 3

ШІ (11) Вибір моделі вкладення

[Копіювати посилання]
Опубліковано 2025-3-14 23:01:35 | | | |
Вимоги: Коли підприємства створюють базу знань RAG, важливо обрати відповідну модель embedding embedding, оскільки продуктивність embedding визначає точність отримання і опосередковано — надійність результату великих моделей. Поширені моделі: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Навіщо вбудовувати модель?

Комп'ютери можуть обробляти лише числові операції і не можуть безпосередньо розуміти нечислові форми даних, такі як природна мова, текст, зображення та аудіо. Тому нам потрібно «векторизувати», щоб перетворити ці дані у числові форми, які комп'ютери можуть розуміти та обробляти, тобто відображати їх у математичні векторні представлення. Цей процес зазвичай здійснюється за допомогою вбудованих моделей, які ефективно захоплюють семантичну інформацію та внутрішні структури даних.

Роль моделей вкладення полягає не лише в тому, щоб перетворювати дискретні дані (такі як слова, фрагменти зображень або аудіофрагменти) у безперервні низьковимірні вектори, а й зберігати семантичні зв'язки між даними у векторному просторі. Наприклад, у обробці природної мови моделі вбудовування можуть генерувати вектори слів, що робить семантично схожі слова ближчими один до одного у векторному просторі. Таке ефективне представлення дозволяє комп'ютерам виконувати складні розрахунки та аналіз на основі цих векторів, тим самим краще розуміючи та обробляючи складні дані, такі як текст, зображення чи звуки.

Впроваджуючи векторизацію моделі, комп'ютери можуть не лише ефективно обробляти великомасштабні дані, а й демонструвати вищі можливості продуктивності та узагальнення у різних завданнях (таких як класифікація, пошук, генерація тощо).

Оцінка embed-моделі

Щоб оцінити якість вбудованої моделі, має існувати чіткий набір критеріїв. MTEB та C-MTEB зазвичай використовуються для бенчмаркінгу.

MTEB

Huggingface має стандарт оцінки MTEB (Massive Multilingual Text Embedding Benchmark), який є відносно визнаним у галузі стандартом і може використовуватися як референс. Він охоплює 8 завдань вбудовування, загалом 58 наборів даних і 112 мов, що робить його найповнішим бенчмарком вбудовування тексту на сьогодні.



Список:Вхід за гіперпосиланням видно.
Адреса GitHub:Вхід за гіперпосиланням видно.



C-MTEB

C-MTEB — це найповніший китайський еталонний орієнтир семантичного вектора, що охоплює 6 категорій завдань оцінки (пошук, сортування, схожість речень, міркування, кластеризація, кластеризація) та 35 наборів даних.

Документи C-MTEB:Вхід за гіперпосиланням видно.
Коди та таблиці лідерів:Вхід за гіперпосиланням видно.(Багато адрес в Інтернеті старі)





Попередній:Linux командує sudo та apt англійські скорочення слів
Наступний:.NET/C# використовує алгоритм SM3 для генерації підписів
 Орендодавець| Опубліковано 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake із задоволенням оголошує про випуск Arctic Embed L 2.0 та Arctic Embed M 2.0 — наступної версії нашої передової моделі вбудовування, яка тепер підтримує багатомовний пошук.Вхід за гіперпосиланням видно.

Завантаження моделі

Арктичне вбудовування L 2.0:Вхід за гіперпосиланням видно.
Арктична вбудова M 2.0:Вхід за гіперпосиланням видно.

 Орендодавець| Опубліковано 2025-3-17 16:30:21 |
BCEmbedding — це бібліотека моделей двомовних та крослінгвальних алгоритмів семантичного представлення, розроблена компанією NetEase Youdao, яка включає два типи базових моделей: EmbeddingModel та RerankerModel. EmbeddingModel спеціально розроблений для генерації семантичних векторів і відіграє ключову роль у семантичному пошуку та питаннях і відповідях, тоді як RerankerModel відзначається в оптимізації семантичних результатів пошуку та семантично пов'язаного секвенування.

GitHub:Вхід за гіперпосиланням видно.

EmbeddingModel:Вхід за гіперпосиланням видно.
RerankerModel:Вхід за гіперпосиланням видно.

 Орендодавець| Опубліковано 2025-3-18 10:07:55 |
Назва моделіверсіяОрганізація/Індивідуальна особаадресаДовжина вбудовуванняМаксимальна довжина входу
ГтдGTE-large-zhАкадемія Alibaba DharmaВхід за гіперпосиланням видно.1024512
bgebge-large-zh-v1.5Інститут досліджень штучного інтелекту в Пекіні ЧжиюаньВхід за гіперпосиланням видно.1024512
m3eM3E-базаМокаВхід за гіперпосиланням видно.768512
tao8ktao8kHuggingface розроблений і відкритий код компанією amuВхід за гіперпосиланням видно.1024512

Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com