Nõuded: Kui ettevõtted ehitavad RAG-teadmiste baasi, on oluline valida sobiv embeddingu mudel, kuna manustamise jõudlus määrab otsingu täpsuse ja kaudselt suurte mudelite väljundi töökindluse. Levinumad mudelid: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Miks on vaja mudelit sisse ehitada?
Arvutid suudavad töödelda ainult numbrilisi operatsioone ega mõista otseselt mitte-numbrilisi andmevorme nagu loomulik keel, tekst, pildid ja heli. Seetõttu peame "vektoriseerima", et teisendada need andmed arvulisteks vormideks, mida arvutid mõistavad ja töötlevad, st kaardistada need matemaatilisteks vektorikujutusteks. See protsess saavutatakse tavaliselt manustatavate mudelite abil, mis suudavad tõhusalt haarata semantilist informatsiooni ja sisemisi struktuure andmetes.
Manusmudelite roll seisneb selles, et need mitte ainult ei teisenda diskreetseid andmeid (nagu sõnad, pildifragmendid või helifragmendid) pidevateks madala dimensiooniga vektoriteks, vaid säilitavad ka semantilisi seoseid andmete vahel vektorruumis. Näiteks loomuliku keele töötlemises võivad manustamismudelid genereerida sõnavektoreid, muutes sõnad vektorruumis semantiliselt sarnaseks üksteisele lähemale. See tõhus esitus võimaldab arvutitel teha keerukaid arvutusi ja analüüse nende vektorite põhjal, aidates seeläbi paremini mõista ja töödelda keerukaid andmeid nagu tekst, pildid või helid.
Mudeli vektoriseerimise integreerimisega saavad arvutid mitte ainult tõhusalt töödelda suuremahulisi andmeid, vaid näidata ka tugevamaid jõudlus- ja üldistamisvõimeid erinevates ülesannetes (näiteks klassifitseerimine, otsingud, genereerimine jne).
Manusmudeli hindamine
Manusmudeli kvaliteedi hindamiseks peab olema selge kriteeriumite komplekt. MTEB ja C-MTEB on sageli kasutusel võrdluseks.
MTEB
Huggingface'il on MTEB (Massive Multilingual Text Embedding Benchmark) hindamisstandard, mis on tööstuses suhteliselt tunnustatud standard ja mida saab kasutada võrdlusena. See hõlmab 8 manustamisülesannet, kokku 58 andmekogumit ja 112 keelt, muutes selle seni kõige põhjalikumaks teksti manustamise võrdluspunktiks.
Loend:Hüperlingi sisselogimine on nähtav. GitHubi aadress:Hüperlingi sisselogimine on nähtav.
C-MTEB
C-MTEB on kõige põhjalikum Hiina semantilise vektori hindamise võrdlusalus, mis hõlmab 6 hindamisülesannete kategooriat (otsimine, sorteerimine, lausete sarnasus, põhjendus, klassifitseerimine, klasterdamine) ja 35 andmestikku.
C-MTEB dokumendid:Hüperlingi sisselogimine on nähtav. Koodid ja edetabelid:Hüperlingi sisselogimine on nähtav.(Paljud interneti aadressid on vanad)
|