AI (11) Избор на модел за вграждане

Малък боклук · Публикувано в 14.03.2025 г. 23:01:35 ч.

Изисквания: Когато предприятията изграждат база знания по RAG, е важно да се избере подходящият модел за вграждане, тъй като производителността на вграждането определя точността на извличането и косвено определя надеждността на изхода на големи модели. Често използвани модели: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Защо трябва да се вгражда модел?

Компютрите могат да обработват само числови операции и не могат директно да разбират нечислови форми на данни като естествен език, текст, изображения и аудио. Затова трябва да "векторизираме", за да превърнем тези данни в числови форми, които компютрите могат да разбират и обработват, тоест да ги картографират в математически векторни представяния. Този процес обикновено се постига с помощта на вграждани модели, които могат ефективно да улавят семантична информация и вътрешни структури в данните.

Ролята на моделите за вграждане е не само да преобразуват дискретни данни (като думи, фрагменти от изображения или аудио фрагменти) в непрекъснати нискоразмерни вектори, но и да запазват семантичните връзки между данните във векторното пространство. Например, в обработката на естествен език, моделите за вграждане могат да генерират вектори на думи, правейки семантично сходни думи по-близки една до друга във векторното пространство. Това ефективно представяне позволява на компютрите да извършват сложни изчисления и анализи, базирани на тези вектори, като по този начин по-добре разбират и обработват сложни данни като текст, изображения или звуци.

Чрез вграждане на векторизацията на модела, компютрите не само могат ефективно да обработват мащабни данни, но и да демонстрират по-силни възможности за производителност и генерализация в различни задачи (като класификация, извличане, генериране и др.).

Оценка на вграден модел

За да се оцени качеството на вграден модел, трябва да има ясен набор от критерии. MTEB и C-MTEB често се използват за бенчмаркинг.

MTEB

Huggingface има стандарт за оценка MTEB (Massive Multilingual Text Embedding Benchmark), който е относително признат стандарт в индустрията и може да се използва като референтен ориентир. Той обхваща 8 задачи за вграждане, общо 58 набора от данни и 112 езика, което го прави най-пълния бенчмарк за вграждане на текст до момента.

Списък:Входът към хиперлинк е видим.
GitHub адрес:Входът към хиперлинк е видим.

C-MTEB

C-MTEB е най-обширният китайски бенчмарк за оценка на семантични вектори, обхващащ 6 категории задачи за оценка (търсене, сортиране, сходство на изречения, разсъждение, класификация, клъстериране) и 35 набора от данни.

Доклади на C-MTEB:Входът към хиперлинк е видим.
Кодове и класации:Входът към хиперлинк е видим.(Много адреси в интернет са стари)

Малък боклук · Публикувано в 17.03.2025 г. 8:55:55 ч.

Arctic Embed 2.0

Snowflake с вълнение обявява пускането на Arctic Embed L 2.0 и Arctic Embed M 2.0, следващата итерация на нашия иновативен модел за вграждане, вече с поддръжка за многоезично търсене.Входът към хиперлинк е видим.

Изтегляне на модел

Арктически имплант L 2.0:Входът към хиперлинк е видим.
Арктически Embed M 2.0:Входът към хиперлинк е видим.

Малък боклук · Публикувано в 17.03.2025 г. 16:30:21 ч.

BCEmbedding е библиотека с двуезични и крос-езични алгоритми за семантично представяне, разработена от NetEase Youdao, включваща два типа основни модели: EmbeddingModel и RerankerModel. EmbeddingModel е специално създаден да генерира семантични вектори и играе ключова роля в семантичното търсене и въпроси и отговори, докато RerankerModel се отличава в оптимизирането на семантичните резултати от търсене и семантично свързаното секвениране.

GitHub:Входът към хиперлинк е видим.

EmbeddingModel:Входът към хиперлинк е видим.
RerankerModel:Входът към хиперлинк е видим.

Малък боклук · Публикувано в 18.03.2025 г. 10:07:55 ч.

Име на модела	версия	Организация/Индивид	адрес	Дължина на вграждането	Максимална дължина на входа
GTE	GTE-large-zh	Alibaba Dharma Academy	Входът към хиперлинк е видим.	1024	512
bge	bge-large-zh-v1.5	Пекински институт за изследване на изкуствения интелект в Пекин Чжиюан	Входът към хиперлинк е видим.	1024	512
m3e	M3E база	Мока	Входът към хиперлинк е видим.	768	512
tao8k	tao8k	Huggingface е разработен и с отворен код от amu	Входът към хиперлинк е видим.	1024	512

AI (11) Избор на модел за вграждане

Свързани публикации

Разгледани секции