Šis straipsnis yra veidrodinis mašininio vertimo straipsnis, spauskite čia norėdami pereiti prie originalaus straipsnio.

Rodinys: 1262|Atsakyti: 3

AI (11) Įterpimo modelio pasirinkimas

[Kopijuoti nuorodą]
Publikuota: 2025-3-14 23:01:35 | | | |
Reikalavimai: Kai įmonės kuria RAG žinių bazę, svarbu pasirinkti tinkamą įterpimo modelį, nes įterpimo efektyvumas lemia gavimo tikslumą ir netiesiogiai lemia didelių modelių išvesties patikimumą. Dažniausiai naudojami modeliai: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Kodėl reikia įterpti modelį?

Kompiuteriai gali atlikti tik skaitmenines operacijas ir negali tiesiogiai suprasti neskaitinių duomenų formų, tokių kaip natūrali kalba, tekstas, vaizdai ir garsas. Todėl turime "vektorizuoti", kad šie duomenys būtų paversti skaitmeninėmis formomis, kurias kompiuteriai galėtų suprasti ir apdoroti, tai yra, susieti juos su matematiniais vektoriniais vaizdais. Šis procesas paprastai pasiekiamas naudojant įterpimo modelius, kurie gali efektyviai užfiksuoti semantinę informaciją ir vidines struktūras duomenyse.

Įterpimo modelių vaidmuo yra tas, kad jie ne tik konvertuoja atskirus duomenis (pvz., žodžius, vaizdo fragmentus ar garso fragmentus) į ištisinius mažų matmenų vektorius, bet ir išsaugo semantinius ryšius tarp duomenų vektorinėje erdvėje. Pavyzdžiui, natūralios kalbos apdorojimo metu įterpimo modeliai gali generuoti žodžių vektorius, todėl semantiškai panašūs žodžiai tampa artimesni vektorinėje erdvėje. Šis efektyvus vaizdavimas leidžia kompiuteriams atlikti sudėtingus skaičiavimus ir analizę remiantis šiais vektoriais, taip geriau suprantant ir apdorojant sudėtingus duomenis, tokius kaip tekstas, vaizdai ar garsai.

Įterpdami modelio vektorizaciją, kompiuteriai gali ne tik efektyviai apdoroti didelio masto duomenis, bet ir pademonstruoti stipresnes našumo ir apibendrinimo galimybes atliekant įvairias užduotis (pvz., klasifikavimą, gavimą, generavimą ir kt.).

Įterpti modelio vertinimą

Norint įvertinti įterptojo modelio kokybę, turi būti aiškus kriterijų rinkinys. MTEB ir C-MTEB dažniausiai naudojami lyginamajai analizei.

MTEB

"Huggingface" turi MTEB (Massive Multilingual Text Embedding Benchmark) vertinimo standartą, kuris yra gana pripažintas pramonės standartas ir gali būti naudojamas kaip nuoroda. Jis apima 8 įterpimo užduotis, iš viso 58 duomenų rinkinius ir 112 kalbų, todėl tai yra išsamiausias teksto įterpimo etalonas iki šiol.



Sąrašas:Hipersaito prisijungimas matomas.
"GitHub" adresas:Hipersaito prisijungimas matomas.



C-MTEB

C-MTEB yra išsamiausias Kinijos semantinio vektoriaus vertinimo etalonas, apimantis 6 vertinimo užduočių kategorijas (paieška, rūšiavimas, sakinių panašumas, samprotavimas, klasifikavimas, klasterizavimas) ir 35 duomenų rinkinius.

C-MTEB dokumentai:Hipersaito prisijungimas matomas.
Kodai ir lyderių lentelės:Hipersaito prisijungimas matomas.(Daugelis adresų internete yra seni)





Ankstesnis:Linux komandos sudo ir apt angliškų žodžių santrumpos
Kitą:.NET/C# naudoja SM3 algoritmą parašams generuoti
 Savininkas| Publikuota: 2025-3-17 08:55:55 |
Arkties įterpimas 2,0

"Snowflake" džiaugiasi galėdama pranešti apie "Arctic Embed L 2.0" ir "Arctic Embed M 2.0" išleidimą, kitą mūsų pažangiausio įterpimo modelio iteraciją, dabar palaikančią daugiakalbę paiešką.Hipersaito prisijungimas matomas.

Modelio atsisiuntimas

Arkties įterpimas L 2.0:Hipersaito prisijungimas matomas.
Arkties įterpimas M 2.0:Hipersaito prisijungimas matomas.

 Savininkas| Publikuota: 2025-3-17 16:30:21 |
BCEmbedding yra dvikalbių ir daugiakalbių semantinio vaizdavimo algoritmų modelių biblioteka, kurią sukūrė NetEase Youdao, įskaitant dviejų tipų pagrindinius modelius: EmbeddingModel ir RerankerModel. "EmbeddingModel" yra specialiai sukurtas semantiniams vektoriams generuoti ir vaidina pagrindinį vaidmenį semantinėje paieškoje ir klausimuose bei atsakymuose, o "RerankerModel" puikiai optimizuoja semantinės paieškos rezultatus ir semantiškai susijusią seką.

"GitHub":Hipersaito prisijungimas matomas.

Įterpimo modelis:Hipersaito prisijungimas matomas.
Rerankerio modelis:Hipersaito prisijungimas matomas.

 Savininkas| Publikuota 2025-3-18 10:07:55 |
Modelio pavadinimasversijaOrganizacija / AsmuoadresasĮterpimo ilgisMaksimalus įvesties ilgis
Gtegte-didelis-zh"Alibaba Dharma" akademijaHipersaito prisijungimas matomas.1024512
bgebge-didelis-zh-v1.5Pekino Zhiyuan dirbtinio intelekto tyrimų institutasHipersaito prisijungimas matomas.1024512
m3eM3E bazėmokaHipersaito prisijungimas matomas.768512
tao8ktao8k"Huggingface" sukūrė ir atvirojo kodo sukūrė amuHipersaito prisijungimas matomas.1024512

Atsakomybės apribojimas:
Visa programinė įranga, programavimo medžiaga ar straipsniai, kuriuos skelbia Code Farmer Network, yra skirti tik mokymosi ir mokslinių tyrimų tikslams; Aukščiau nurodytas turinys negali būti naudojamas komerciniais ar neteisėtais tikslais, priešingu atveju vartotojai prisiima visas pasekmes. Šioje svetainėje pateikiama informacija gaunama iš interneto, o ginčai dėl autorių teisių neturi nieko bendra su šia svetaine. Turite visiškai ištrinti aukščiau pateiktą turinį iš savo kompiuterio per 24 valandas nuo atsisiuntimo. Jei jums patinka programa, palaikykite autentišką programinę įrangą, įsigykite registraciją ir gaukite geresnes autentiškas paslaugas. Jei yra kokių nors pažeidimų, susisiekite su mumis el. paštu.

Mail To:help@itsvse.com