Ez a cikk egy tükör gépi fordítás, kérjük, kattintson ide, hogy ugorjon az eredeti cikkre.

Nézet: 1262|Válasz: 3

AI (11) Beágyazási modell kiválasztása

[Linket másol]
Közzétéve: 2025-3-14 23:01:35 | | | |
Követelmények: Amikor a vállalatok RAG tudásbázist építenek, fontos kiválasztani a megfelelő beágyazási beágyazási modellt, mivel a beágyazás teljesítménye határozza meg a lekérdezés pontosságát, és közvetve a nagy modellek kimenetének megbízhatóságát. Leggyakrabban használt modellek: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Miért kell beágyazni egy modellt?

A számítógépek csak numerikus műveleteket tudnak kezelni, és nem érthetik meg közvetlenül a nem numerikus adatformákat, mint például a természetes nyelv, szöveg, képek és hang. Ezért "vektorizálni" kell, hogy ezeket az adatokat numerikus formákká alakítsuk, amelyeket a számítógépek megérthetnek és feldolgozhatnak, vagyis matematikai vektorreprezentációkká térképezzük őket. Ezt a folyamatot általában beágyazómodellek segítségével valósítják meg, amelyek hatékonyan képesek szemantikai információkat és belső struktúrákat rögzíteni az adatokban.

A beágyazási modellek szerepe az, hogy nemcsak a diszkrét adatokat (például szavakat, képtöredékeket vagy hangtöredékeket) folyamatos, alacsony dimenziós vektorokká alakítanak, hanem megőrzik az adatok közötti szemantikai viszonyokat is a vektortérben. Például a természetes nyelvfeldolgozás során a beágyazási modellek szóvektorokat generálhatnak, így szemantikailag hasonló szavak közelebb kerülnek egymáshoz a vektortérben. Ez a hatékony reprezentáció lehetővé teszi a számítógépek számára, hogy összetett számításokat és elemzéseket végezzenek ezen vektorok alapján, így jobban megérthetik és feldolgozzák a bonyolult adatokat, például szöveget, képeket vagy hangokat.

A modell vektorizálásának beágyazásával a számítógépek nemcsak hatékonyan dolgozhatnak fel nagy léptékű adatokat, hanem erősebb teljesítmény- és általánosítási képességeket is mutathatnak különböző feladatokban (például osztályozás, keresés, generálás stb.).

Beágyazási modell értékelés

Ahhoz, hogy egy beágyazott modell minőségét megítéljük, világos kritériumoknak kell lennie. Az MTEB és a C-MTEB gyakran használják benchmarkinghoz.

MTEB

A Huggingface MTEB (Massive Multilingual Text Embedding Benchmark) értékelési szabványt kínál, amely viszonylag elismert szabvány az iparágban, és referenciaként használható. 8 beágyazási feladatot, összesen 58 adatkészletet és 112 nyelvet fed le, így eddigi legátfogóbb szövegbeágyazási benchmark.



Lista:A hiperlink bejelentkezés látható.
GitHub cím:A hiperlink bejelentkezés látható.



C-MTEB

A C-MTEB a legátfogóbb kínai szemantikai vektorértékelési benchmark, amely 6 értékelési feladatkategóriát (lekérdezés, rendezés, mondathasonlóság, érvelés, osztályozás, klaszterezés) és 35 adathalmazt fed le.

C-MTEB iratok:A hiperlink bejelentkezés látható.
Kódok és ranglisták:A hiperlink bejelentkezés látható.(Az interneten sok cím régi)





Előző:Linux parancsok sudo és megfelelő angol szó rövidítések
Következő:A .NET/C# az SM3 algoritmust használja aláírások generálására
 Háziúr| Közzétéve: 2025-3-17 08:55:55 |
Arctic Embed 2.0

A Snowflake izgatottan jelenti be az Arctic Embed L 2.0 és az Arctic Embed M 2.0 megjelenését, amely a legmodernebb beágyazási modellünk következő változata, és most többnyelvű keresést támogat.A hiperlink bejelentkezés látható.

Modell letöltése

Arctic Embed L 2.0:A hiperlink bejelentkezés látható.
Arctic Embed M 2.0:A hiperlink bejelentkezés látható.

 Háziúr| Közzétéve: 2025-3-17 16:30:21 |
A BCEmbedding egy kétnyelvű és keresztnyelvű szemantikai reprezentációs algoritmusokból álló modellkönyvtár, amelyet a NetEase Youdao fejlesztett ki, és két alapvető modellt tartalmaz: az EmbeddingModel és a RerankerModel. A EmbeddingModel kifejezetten szemantikai vektorok generálására lett tervezve, és kulcsszerepet játszik a szemantikai keresésben és a Q&A-ban, míg a RerankerModel kiválóan teljesít a szemantikai keresési eredmények optimalizálásában és a szemantikailag kapcsolódó szekvenálásban.

GitHub:A hiperlink bejelentkezés látható.

EmbeddingModel:A hiperlink bejelentkezés látható.
RerankerModel:A hiperlink bejelentkezés látható.

 Háziúr| Közzétéve: 2025-3-18 10:07:55 |
Modell neveverzióSzervezet/EgyénicímBeágyazás hosszaMaximális bemeneti hossz
Gtegte-large-zhAlibaba Dharma AkadémiaA hiperlink bejelentkezés látható.1024512
BGEBGE-Large-ZH-v1.5Pekingi Zhiyuan Mesterséges Intelligencia KutatóintézetA hiperlink bejelentkezés látható.1024512
M3eM3E-bázisMokaA hiperlink bejelentkezés látható.768512
tao8ktao8kHuggingface-et az AMU fejlesztette és nyílt forráskódúvá tesziA hiperlink bejelentkezés látható.1024512

Lemondás:
A Code Farmer Network által közzétett összes szoftver, programozási anyag vagy cikk kizárólag tanulási és kutatási célokra szolgál; A fenti tartalmat nem szabad kereskedelmi vagy illegális célokra használni, különben a felhasználók viselik az összes következményet. Az oldalon található információk az internetről származnak, és a szerzői jogi vitáknak semmi köze ehhez az oldalhoz. A fenti tartalmat a letöltés után 24 órán belül teljesen törölni kell a számítógépéről. Ha tetszik a program, kérjük, támogassa a valódi szoftvert, vásároljon regisztrációt, és szerezzen jobb hiteles szolgáltatásokat. Ha bármilyen jogsértés történik, kérjük, vegye fel velünk a kapcsolatot e-mailben.

Mail To:help@itsvse.com