AI (11) Beágyazási modell kiválasztása

Kis szemét · Közzétéve 2025. 03. 14. 23:01:35

Követelmények: Amikor a vállalatok RAG tudásbázist építenek, fontos kiválasztani a megfelelő beágyazási beágyazási modellt, mivel a beágyazás teljesítménye határozza meg a lekérdezés pontosságát, és közvetve a nagy modellek kimenetének megbízhatóságát. Leggyakrabban használt modellek: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Miért kell beágyazni egy modellt?

A számítógépek csak numerikus műveleteket tudnak kezelni, és nem érthetik meg közvetlenül a nem numerikus adatformákat, mint például a természetes nyelv, szöveg, képek és hang. Ezért "vektorizálni" kell, hogy ezeket az adatokat numerikus formákká alakítsuk, amelyeket a számítógépek megérthetnek és feldolgozhatnak, vagyis matematikai vektorreprezentációkká térképezzük őket. Ezt a folyamatot általában beágyazómodellek segítségével valósítják meg, amelyek hatékonyan képesek szemantikai információkat és belső struktúrákat rögzíteni az adatokban.

A beágyazási modellek szerepe az, hogy nemcsak a diszkrét adatokat (például szavakat, képtöredékeket vagy hangtöredékeket) folyamatos, alacsony dimenziós vektorokká alakítanak, hanem megőrzik az adatok közötti szemantikai viszonyokat is a vektortérben. Például a természetes nyelvfeldolgozás során a beágyazási modellek szóvektorokat generálhatnak, így szemantikailag hasonló szavak közelebb kerülnek egymáshoz a vektortérben. Ez a hatékony reprezentáció lehetővé teszi a számítógépek számára, hogy összetett számításokat és elemzéseket végezzenek ezen vektorok alapján, így jobban megérthetik és feldolgozzák a bonyolult adatokat, például szöveget, képeket vagy hangokat.

A modell vektorizálásának beágyazásával a számítógépek nemcsak hatékonyan dolgozhatnak fel nagy léptékű adatokat, hanem erősebb teljesítmény- és általánosítási képességeket is mutathatnak különböző feladatokban (például osztályozás, keresés, generálás stb.).

Beágyazási modell értékelés

Ahhoz, hogy egy beágyazott modell minőségét megítéljük, világos kritériumoknak kell lennie. Az MTEB és a C-MTEB gyakran használják benchmarkinghoz.

MTEB

A Huggingface MTEB (Massive Multilingual Text Embedding Benchmark) értékelési szabványt kínál, amely viszonylag elismert szabvány az iparágban, és referenciaként használható. 8 beágyazási feladatot, összesen 58 adatkészletet és 112 nyelvet fed le, így eddigi legátfogóbb szövegbeágyazási benchmark.

Lista:A hiperlink bejelentkezés látható.
GitHub cím:A hiperlink bejelentkezés látható.

C-MTEB

A C-MTEB a legátfogóbb kínai szemantikai vektorértékelési benchmark, amely 6 értékelési feladatkategóriát (lekérdezés, rendezés, mondathasonlóság, érvelés, osztályozás, klaszterezés) és 35 adathalmazt fed le.

C-MTEB iratok:A hiperlink bejelentkezés látható.
Kódok és ranglisták:A hiperlink bejelentkezés látható.(Az interneten sok cím régi)

Kis szemét · Közzétéve 2025. 03. 17. 8:55:55

Arctic Embed 2.0

A Snowflake izgatottan jelenti be az Arctic Embed L 2.0 és az Arctic Embed M 2.0 megjelenését, amely a legmodernebb beágyazási modellünk következő változata, és most többnyelvű keresést támogat.A hiperlink bejelentkezés látható.

Modell letöltése

Arctic Embed L 2.0:A hiperlink bejelentkezés látható.
Arctic Embed M 2.0:A hiperlink bejelentkezés látható.

Kis szemét · Közzétéve 2025. 03. 17. 16:30:21

A BCEmbedding egy kétnyelvű és keresztnyelvű szemantikai reprezentációs algoritmusokból álló modellkönyvtár, amelyet a NetEase Youdao fejlesztett ki, és két alapvető modellt tartalmaz: az EmbeddingModel és a RerankerModel. A EmbeddingModel kifejezetten szemantikai vektorok generálására lett tervezve, és kulcsszerepet játszik a szemantikai keresésben és a Q&A-ban, míg a RerankerModel kiválóan teljesít a szemantikai keresési eredmények optimalizálásában és a szemantikailag kapcsolódó szekvenálásban.

GitHub:A hiperlink bejelentkezés látható.

EmbeddingModel:A hiperlink bejelentkezés látható.
RerankerModel:A hiperlink bejelentkezés látható.

Kis szemét · Közzétéve 2025. 03. 18. 10:07:55

Modell neve	verzió	Szervezet/Egyéni	cím	Beágyazás hossza	Maximális bemeneti hossz
Gte	gte-large-zh	Alibaba Dharma Akadémia	A hiperlink bejelentkezés látható.	1024	512
BGE	BGE-Large-ZH-v1.5	Pekingi Zhiyuan Mesterséges Intelligencia Kutatóintézet	A hiperlink bejelentkezés látható.	1024	512
M3e	M3E-bázis	Moka	A hiperlink bejelentkezés látható.	768	512
tao8k	tao8k	Huggingface-et az AMU fejlesztette és nyílt forráskódúvá teszi	A hiperlink bejelentkezés látható.	1024	512

AI (11) Beágyazási modell kiválasztása

Kapcsolódó bejegyzések

Megtekintett szakaszok