Reikalavimai: Kai įmonės kuria RAG žinių bazę, svarbu pasirinkti tinkamą įterpimo modelį, nes įterpimo efektyvumas lemia gavimo tikslumą ir netiesiogiai lemia didelių modelių išvesties patikimumą. Dažniausiai naudojami modeliai: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Kodėl reikia įterpti modelį?
Kompiuteriai gali atlikti tik skaitmenines operacijas ir negali tiesiogiai suprasti neskaitinių duomenų formų, tokių kaip natūrali kalba, tekstas, vaizdai ir garsas. Todėl turime "vektorizuoti", kad šie duomenys būtų paversti skaitmeninėmis formomis, kurias kompiuteriai galėtų suprasti ir apdoroti, tai yra, susieti juos su matematiniais vektoriniais vaizdais. Šis procesas paprastai pasiekiamas naudojant įterpimo modelius, kurie gali efektyviai užfiksuoti semantinę informaciją ir vidines struktūras duomenyse.
Įterpimo modelių vaidmuo yra tas, kad jie ne tik konvertuoja atskirus duomenis (pvz., žodžius, vaizdo fragmentus ar garso fragmentus) į ištisinius mažų matmenų vektorius, bet ir išsaugo semantinius ryšius tarp duomenų vektorinėje erdvėje. Pavyzdžiui, natūralios kalbos apdorojimo metu įterpimo modeliai gali generuoti žodžių vektorius, todėl semantiškai panašūs žodžiai tampa artimesni vektorinėje erdvėje. Šis efektyvus vaizdavimas leidžia kompiuteriams atlikti sudėtingus skaičiavimus ir analizę remiantis šiais vektoriais, taip geriau suprantant ir apdorojant sudėtingus duomenis, tokius kaip tekstas, vaizdai ar garsai.
Įterpdami modelio vektorizaciją, kompiuteriai gali ne tik efektyviai apdoroti didelio masto duomenis, bet ir pademonstruoti stipresnes našumo ir apibendrinimo galimybes atliekant įvairias užduotis (pvz., klasifikavimą, gavimą, generavimą ir kt.).
Įterpti modelio vertinimą
Norint įvertinti įterptojo modelio kokybę, turi būti aiškus kriterijų rinkinys. MTEB ir C-MTEB dažniausiai naudojami lyginamajai analizei.
MTEB
"Huggingface" turi MTEB (Massive Multilingual Text Embedding Benchmark) vertinimo standartą, kuris yra gana pripažintas pramonės standartas ir gali būti naudojamas kaip nuoroda. Jis apima 8 įterpimo užduotis, iš viso 58 duomenų rinkinius ir 112 kalbų, todėl tai yra išsamiausias teksto įterpimo etalonas iki šiol.
Sąrašas:Hipersaito prisijungimas matomas. "GitHub" adresas:Hipersaito prisijungimas matomas.
C-MTEB
C-MTEB yra išsamiausias Kinijos semantinio vektoriaus vertinimo etalonas, apimantis 6 vertinimo užduočių kategorijas (paieška, rūšiavimas, sakinių panašumas, samprotavimas, klasifikavimas, klasterizavimas) ir 35 duomenų rinkinius.
C-MTEB dokumentai:Hipersaito prisijungimas matomas. Kodai ir lyderių lentelės:Hipersaito prisijungimas matomas.(Daugelis adresų internete yra seni)
|