Требования: Когда предприятия строят базу знаний RAG, важно выбрать подходящую модель вложения вложения, так как производительность вложения определяет точность поиска и косвенно определяет надёжность результатов крупных моделей. Часто используемые модели: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Зачем нужно встраивать модель?
Компьютеры могут обрабатывать только числовые операции и не могут напрямую понимать нечисловые формы данных, такие как естественный язык, текст, изображения и аудио. Поэтому нам нужно «векторизировать», чтобы преобразовать эти данные в числовые формы, которые компьютеры могут понять и обрабатывать, то есть отображать их в математические векторные представления. Этот процесс обычно достигается с помощью встраиваемых моделей, которые эффективно фиксируют семантическую информацию и внутренние структуры данных.
Роль моделей вложения заключается не только в преобразовании дискретных данных (таких как слова, фрагменты изображений или аудиофрагменты) в непрерывные малоразмерные векторы, но и в сохранении семантических связей между данными в векторном пространстве. Например, в обработке естественного языка модели вложения могут генерировать векторы слов, делая семантически похожие слова ближе друг к другу в векторном пространстве. Такое эффективное представление позволяет компьютерам выполнять сложные вычисления и анализ на основе этих векторов, тем самым лучше понимая и обрабатывая сложные данные, такие как текст, изображения или звуки.
Внедряя векторизацию модели, компьютеры могут не только эффективно обрабатывать крупномасштабные данные, но и демонстрировать более высокую производительность и возможности обобщения в различных задачах (таких как классификация, поиск, генерация и др.).
Оценка встраиваемой модели
Чтобы оценить качество встроенной модели, должен существовать чёткий набор критериев. MTEB и C-MTEB обычно используются для бенчмаркинга.
MTEB
Huggingface имеет стандарт оценки MTEB (Massive Multilingual Text Embedding Benchmark), который является относительно признанным стандартом в отрасли и может использоваться в качестве эталона. Он охватывает 8 задач вложения, всего 58 наборов данных и 112 языков, что делает его самым комплексным бенчмарком вложения текста на сегодняшний день.
Список:Вход по гиперссылке виден. Адрес на GitHub:Вход по гиперссылке виден.
C-MTEB
C-MTEB — это самый комплексный китайский эталон оценки семантических векторов, охватывающий 6 категорий задач оценки (поиск, сортировка, сходство предложений, рассуждение, классификация, кластеризация) и 35 наборов данных.
Документы C-MTEB:Вход по гиперссылке виден. Коды и таблицы лидеров:Вход по гиперссылке виден.(Многие адреса в Интернете старые)
|