Prasības: Kad uzņēmumi veido RAG zināšanu bāzi, ir svarīgi izvēlēties atbilstošu iegulšanas modeli, jo iegulšanas veiktspēja nosaka izgūšanas precizitāti un netieši nosaka lielo modeļu izvades uzticamību. Bieži izmantotie modeļi: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Kāpēc jums ir nepieciešams iegult modeli?
Datori var apstrādāt tikai skaitliskas operācijas un nevar tieši saprast neskaitliskas datu formas, piemēram, dabisko valodu, tekstu, attēlus un audio. Tāpēc mums ir nepieciešams "vektorizēt", lai pārveidotu šos datus skaitliskās formās, kuras datori var saprast un apstrādāt, tas ir, kartēt tos matemātiskajos vektoru attēlojumos. Šis process parasti tiek panākts, izmantojot iegulšanas modeļus, kas var efektīvi uztvert semantisku informāciju un iekšējās struktūras datos.
Iegulšanas modeļu loma ir tāda, ka tie ne tikai pārvērš diskrētus datus (piemēram, vārdus, attēlu fragmentus vai audio fragmentus) nepārtrauktos zemu dimensiju vektoros, bet arī saglabā semantiskas attiecības starp datiem vektoru telpā. Piemēram, dabiskās valodas apstrādē iegulšanas modeļi var ģenerēt vārdu vektorus, padarot semantiski līdzīgus vārdus tuvākus vektoru telpā. Šī efektīva attēlošana ļauj datoriem veikt sarežģītus aprēķinus un analīzi, pamatojoties uz šiem vektoriem, tādējādi labāk izprotot un apstrādājot sarežģītus datus, piemēram, tekstu, attēlus vai skaņas.
Ieguldot modeļa vektorizāciju, datori var ne tikai efektīvi apstrādāt liela mēroga datus, bet arī demonstrēt spēcīgākas veiktspējas un vispārināšanas spējas dažādos uzdevumos (piemēram, klasifikācija, izgūšana, ģenerēšana utt.).
Modeļa novērtējuma iegulšana
Lai spriestu par iegultā modeļa kvalitāti, ir jābūt skaidram kritēriju kopumam. MTEB un C-MTEB parasti izmanto salīdzinošajai novērtēšanai.
MTEB
Huggingface ir MTEB (Massive Multilingual Text Embedding Benchmark) novērtēšanas standarts, kas ir salīdzinoši atzīts standarts nozarē un to var izmantot kā atsauci. Tas aptver 8 iegulšanas uzdevumus, kopumā 58 datu kopas un 112 valodas, padarot to par visaptverošāko teksta iegulšanas etalonu līdz šim.
Saraksts:Hipersaites pieteikšanās ir redzama. GitHub adrese:Hipersaites pieteikšanās ir redzama.
C-MTEB
C-MTEB ir visaptverošākais ķīniešu semantiskā vektora novērtēšanas etalons, kas aptver 6 novērtēšanas uzdevumu kategorijas (izgūšana, šķirošana, teikumu līdzība, argumentācija, klasifikācija, klasterizācija) un 35 datu kopas.
C-MTEB dokumenti:Hipersaites pieteikšanās ir redzama. Kodi un līderu saraksti:Hipersaites pieteikšanās ir redzama.(Daudzas adreses internetā ir vecas)
|