Эта статья является зеркальной статьёй машинного перевода, пожалуйста, нажмите здесь, чтобы перейти к оригиналу.

Вид: 1262|Ответ: 3

ИИ (11) Выбор модели вложения

[Скопировать ссылку]
Опубликовано 2025-3-14 23:01:35 | | | |
Требования: Когда предприятия строят базу знаний RAG, важно выбрать подходящую модель вложения вложения, так как производительность вложения определяет точность поиска и косвенно определяет надёжность результатов крупных моделей. Часто используемые модели: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Зачем нужно встраивать модель?

Компьютеры могут обрабатывать только числовые операции и не могут напрямую понимать нечисловые формы данных, такие как естественный язык, текст, изображения и аудио. Поэтому нам нужно «векторизировать», чтобы преобразовать эти данные в числовые формы, которые компьютеры могут понять и обрабатывать, то есть отображать их в математические векторные представления. Этот процесс обычно достигается с помощью встраиваемых моделей, которые эффективно фиксируют семантическую информацию и внутренние структуры данных.

Роль моделей вложения заключается не только в преобразовании дискретных данных (таких как слова, фрагменты изображений или аудиофрагменты) в непрерывные малоразмерные векторы, но и в сохранении семантических связей между данными в векторном пространстве. Например, в обработке естественного языка модели вложения могут генерировать векторы слов, делая семантически похожие слова ближе друг к другу в векторном пространстве. Такое эффективное представление позволяет компьютерам выполнять сложные вычисления и анализ на основе этих векторов, тем самым лучше понимая и обрабатывая сложные данные, такие как текст, изображения или звуки.

Внедряя векторизацию модели, компьютеры могут не только эффективно обрабатывать крупномасштабные данные, но и демонстрировать более высокую производительность и возможности обобщения в различных задачах (таких как классификация, поиск, генерация и др.).

Оценка встраиваемой модели

Чтобы оценить качество встроенной модели, должен существовать чёткий набор критериев. MTEB и C-MTEB обычно используются для бенчмаркинга.

MTEB

Huggingface имеет стандарт оценки MTEB (Massive Multilingual Text Embedding Benchmark), который является относительно признанным стандартом в отрасли и может использоваться в качестве эталона. Он охватывает 8 задач вложения, всего 58 наборов данных и 112 языков, что делает его самым комплексным бенчмарком вложения текста на сегодняшний день.



Список:Вход по гиперссылке виден.
Адрес на GitHub:Вход по гиперссылке виден.



C-MTEB

C-MTEB — это самый комплексный китайский эталон оценки семантических векторов, охватывающий 6 категорий задач оценки (поиск, сортировка, сходство предложений, рассуждение, классификация, кластеризация) и 35 наборов данных.

Документы C-MTEB:Вход по гиперссылке виден.
Коды и таблицы лидеров:Вход по гиперссылке виден.(Многие адреса в Интернете старые)





Предыдущий:Linux командует sudo и apt английские аббревиатуры слов
Следующий:.NET/C# использует алгоритм SM3 для генерации сигнатур
 Хозяин| Опубликовано 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake с радостью объявляет о выпуске Arctic Embed L 2.0 и Arctic Embed M 2.0 — следующей версии нашей передовой модели встраивания, теперь с поддержкой многоязычного поиска.Вход по гиперссылке виден.

Загрузка модели

Арктический вкладыш L 2.0:Вход по гиперссылке виден.
Арктическое встраивание M 2.0:Вход по гиперссылке виден.

 Хозяин| Опубликовано 2025-3-17 16:30:21 |
BCEmbedding — это модельная библиотека билингвальных и межязычных алгоритмов семантического представления, разработанная компанией NetEase Youdao, включающая два основных типа моделей: EmbeddingModel и RerankerModel. EmbeddingModel специально разработан для генерации семантических векторов и играет ключевую роль в семантическом поиске и вопросах и ответах, в то время как RerankerModel отлично оптимизирует результаты семантического поиска и семантически связанное секвенирование.

GitHub:Вход по гиперссылке виден.

EmbeddingModel:Вход по гиперссылке виден.
RerankerModel:Вход по гиперссылке виден.

 Хозяин| Опубликовано 2025-3-18 10:07:55 |
Название моделиВерсияОрганизация/Индивидуальное предприятиеадресДлина вложенияМаксимальная длина входа
ГтэGTE-large-zhAlibaba Dharma AcademyВход по гиперссылке виден.1024512
bgebge-large-zh-v1.5Пекинский институт искусственного интеллекта ЧжиюаньВход по гиперссылке виден.1024512
m3eM3E-базаМокаВход по гиперссылке виден.768512
tao8ktao8kHuggingface разработан и с открытым исходным кодом компанией amuВход по гиперссылке виден.1024512

Отказ:
Всё программное обеспечение, программные материалы или статьи, публикуемые Code Farmer Network, предназначены исключительно для учебных и исследовательских целей; Вышеуказанный контент не должен использоваться в коммерческих или незаконных целях, иначе пользователи несут все последствия. Информация на этом сайте взята из Интернета, и споры по авторским правам не имеют отношения к этому сайту. Вы должны полностью удалить вышеуказанный контент с компьютера в течение 24 часов после загрузки. Если вам нравится программа, пожалуйста, поддержите подлинное программное обеспечение, купите регистрацию и получите лучшие подлинные услуги. Если есть нарушение, пожалуйста, свяжитесь с нами по электронной почте.

Mail To:help@itsvse.com