Тази статия е огледална статия за машинен превод, моля, кликнете тук, за да преминете към оригиналната статия.

Изглед: 1262|Отговор: 3

AI (11) Избор на модел за вграждане

[Копирай линк]
Публикувано на 2025-3-14 23:01:35 | | | |
Изисквания: Когато предприятията изграждат база знания по RAG, е важно да се избере подходящият модел за вграждане, тъй като производителността на вграждането определя точността на извличането и косвено определя надеждността на изхода на големи модели. Често използвани модели: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Защо трябва да се вгражда модел?

Компютрите могат да обработват само числови операции и не могат директно да разбират нечислови форми на данни като естествен език, текст, изображения и аудио. Затова трябва да "векторизираме", за да превърнем тези данни в числови форми, които компютрите могат да разбират и обработват, тоест да ги картографират в математически векторни представяния. Този процес обикновено се постига с помощта на вграждани модели, които могат ефективно да улавят семантична информация и вътрешни структури в данните.

Ролята на моделите за вграждане е не само да преобразуват дискретни данни (като думи, фрагменти от изображения или аудио фрагменти) в непрекъснати нискоразмерни вектори, но и да запазват семантичните връзки между данните във векторното пространство. Например, в обработката на естествен език, моделите за вграждане могат да генерират вектори на думи, правейки семантично сходни думи по-близки една до друга във векторното пространство. Това ефективно представяне позволява на компютрите да извършват сложни изчисления и анализи, базирани на тези вектори, като по този начин по-добре разбират и обработват сложни данни като текст, изображения или звуци.

Чрез вграждане на векторизацията на модела, компютрите не само могат ефективно да обработват мащабни данни, но и да демонстрират по-силни възможности за производителност и генерализация в различни задачи (като класификация, извличане, генериране и др.).

Оценка на вграден модел

За да се оцени качеството на вграден модел, трябва да има ясен набор от критерии. MTEB и C-MTEB често се използват за бенчмаркинг.

MTEB

Huggingface има стандарт за оценка MTEB (Massive Multilingual Text Embedding Benchmark), който е относително признат стандарт в индустрията и може да се използва като референтен ориентир. Той обхваща 8 задачи за вграждане, общо 58 набора от данни и 112 езика, което го прави най-пълния бенчмарк за вграждане на текст до момента.



Списък:Входът към хиперлинк е видим.
GitHub адрес:Входът към хиперлинк е видим.



C-MTEB

C-MTEB е най-обширният китайски бенчмарк за оценка на семантични вектори, обхващащ 6 категории задачи за оценка (търсене, сортиране, сходство на изречения, разсъждение, класификация, клъстериране) и 35 набора от данни.

Доклади на C-MTEB:Входът към хиперлинк е видим.
Кодове и класации:Входът към хиперлинк е видим.(Много адреси в интернет са стари)





Предишен:Linux командва sudo и подходящи английски абревиатури на думи
Следващ:.NET/C# използва алгоритъма SM3 за генериране на сигнатури
 Хазяин| Публикувано на 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake с вълнение обявява пускането на Arctic Embed L 2.0 и Arctic Embed M 2.0, следващата итерация на нашия иновативен модел за вграждане, вече с поддръжка за многоезично търсене.Входът към хиперлинк е видим.

Изтегляне на модел

Арктически имплант L 2.0:Входът към хиперлинк е видим.
Арктически Embed M 2.0:Входът към хиперлинк е видим.

 Хазяин| Публикувано на 2025-3-17 16:30:21 |
BCEmbedding е библиотека с двуезични и крос-езични алгоритми за семантично представяне, разработена от NetEase Youdao, включваща два типа основни модели: EmbeddingModel и RerankerModel. EmbeddingModel е специално създаден да генерира семантични вектори и играе ключова роля в семантичното търсене и въпроси и отговори, докато RerankerModel се отличава в оптимизирането на семантичните резултати от търсене и семантично свързаното секвениране.

GitHub:Входът към хиперлинк е видим.

EmbeddingModel:Входът към хиперлинк е видим.
RerankerModel:Входът към хиперлинк е видим.

 Хазяин| Публикувано на 2025-3-18 10:07:55 |
Име на моделаверсияОрганизация/ИндивидадресДължина на вгражданетоМаксимална дължина на входа
GTEGTE-large-zhAlibaba Dharma AcademyВходът към хиперлинк е видим.1024512
bgebge-large-zh-v1.5Пекински институт за изследване на изкуствения интелект в Пекин ЧжиюанВходът към хиперлинк е видим.1024512
m3eM3E базаМокаВходът към хиперлинк е видим.768512
tao8ktao8kHuggingface е разработен и с отворен код от amuВходът към хиперлинк е видим.1024512

Отричане:
Целият софтуер, програмни материали или статии, публикувани от Code Farmer Network, са само за учебни и изследователски цели; Горното съдържание не трябва да се използва за търговски или незаконни цели, в противен случай потребителите ще понесат всички последствия. Информацията на този сайт идва от интернет, а споровете за авторски права нямат нищо общо с този сайт. Трябва напълно да изтриете горното съдържание от компютъра си в рамките на 24 часа след изтеглянето. Ако ви харесва програмата, моля, подкрепете оригинален софтуер, купете регистрация и получете по-добри услуги. Ако има нарушение, моля, свържете се с нас по имейл.

Mail To:help@itsvse.com