Šis raksts ir mašīntulkošanas spoguļraksts, lūdzu, noklikšķiniet šeit, lai pārietu uz oriģinālo rakstu.

Skats: 1262|Atbildi: 3

AI (11) Iegulšanas modeļa izvēle

[Kopēt saiti]
Publicēts 2025-3-14 23:01:35 | | | |
Prasības: Kad uzņēmumi veido RAG zināšanu bāzi, ir svarīgi izvēlēties atbilstošu iegulšanas modeli, jo iegulšanas veiktspēja nosaka izgūšanas precizitāti un netieši nosaka lielo modeļu izvades uzticamību. Bieži izmantotie modeļi: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Kāpēc jums ir nepieciešams iegult modeli?

Datori var apstrādāt tikai skaitliskas operācijas un nevar tieši saprast neskaitliskas datu formas, piemēram, dabisko valodu, tekstu, attēlus un audio. Tāpēc mums ir nepieciešams "vektorizēt", lai pārveidotu šos datus skaitliskās formās, kuras datori var saprast un apstrādāt, tas ir, kartēt tos matemātiskajos vektoru attēlojumos. Šis process parasti tiek panākts, izmantojot iegulšanas modeļus, kas var efektīvi uztvert semantisku informāciju un iekšējās struktūras datos.

Iegulšanas modeļu loma ir tāda, ka tie ne tikai pārvērš diskrētus datus (piemēram, vārdus, attēlu fragmentus vai audio fragmentus) nepārtrauktos zemu dimensiju vektoros, bet arī saglabā semantiskas attiecības starp datiem vektoru telpā. Piemēram, dabiskās valodas apstrādē iegulšanas modeļi var ģenerēt vārdu vektorus, padarot semantiski līdzīgus vārdus tuvākus vektoru telpā. Šī efektīva attēlošana ļauj datoriem veikt sarežģītus aprēķinus un analīzi, pamatojoties uz šiem vektoriem, tādējādi labāk izprotot un apstrādājot sarežģītus datus, piemēram, tekstu, attēlus vai skaņas.

Ieguldot modeļa vektorizāciju, datori var ne tikai efektīvi apstrādāt liela mēroga datus, bet arī demonstrēt spēcīgākas veiktspējas un vispārināšanas spējas dažādos uzdevumos (piemēram, klasifikācija, izgūšana, ģenerēšana utt.).

Modeļa novērtējuma iegulšana

Lai spriestu par iegultā modeļa kvalitāti, ir jābūt skaidram kritēriju kopumam. MTEB un C-MTEB parasti izmanto salīdzinošajai novērtēšanai.

MTEB

Huggingface ir MTEB (Massive Multilingual Text Embedding Benchmark) novērtēšanas standarts, kas ir salīdzinoši atzīts standarts nozarē un to var izmantot kā atsauci. Tas aptver 8 iegulšanas uzdevumus, kopumā 58 datu kopas un 112 valodas, padarot to par visaptverošāko teksta iegulšanas etalonu līdz šim.



Saraksts:Hipersaites pieteikšanās ir redzama.
GitHub adrese:Hipersaites pieteikšanās ir redzama.



C-MTEB

C-MTEB ir visaptverošākais ķīniešu semantiskā vektora novērtēšanas etalons, kas aptver 6 novērtēšanas uzdevumu kategorijas (izgūšana, šķirošana, teikumu līdzība, argumentācija, klasifikācija, klasterizācija) un 35 datu kopas.

C-MTEB dokumenti:Hipersaites pieteikšanās ir redzama.
Kodi un līderu saraksti:Hipersaites pieteikšanās ir redzama.(Daudzas adreses internetā ir vecas)





Iepriekšējo:Linux komandas sudo un apt angļu vārdu saīsinājumi
Nākamo:.NET/C# izmanto SM3 algoritmu, lai ģenerētu parakstus
 Saimnieks| Publicēts 2025-3-17 08:55:55 |
Arktikas iegulšana 2,0

Snowflake ar prieku paziņo par Arctic Embed L 2.0 un Arctic Embed M 2.0 izlaišanu, kas ir nākamā mūsu progresīvā iegulšanas modeļa iterācija, kas tagad atbalsta daudzvalodu meklēšanu.Hipersaites pieteikšanās ir redzama.

Modeļa lejupielāde

Arktikas iegulšana L 2.0:Hipersaites pieteikšanās ir redzama.
Arktikas iegulšana M 2.0:Hipersaites pieteikšanās ir redzama.

 Saimnieks| Publicēts 2025-3-17 16:30:21 |
BCEmbedding ir NetEase Youdao izstrādāta divvalodu un starpvalodu semantiskā attēlojuma algoritmu modeļu bibliotēka, ieskaitot divu veidu pamatmodeļus: EmbeddingModel un RerankerModel. EmbeddingModel ir īpaši izstrādāts, lai ģenerētu semantiskus vektorus, un tam ir galvenā loma semantiskajā meklēšanā un jautājumu un atbilžu jomā, savukārt RerankerModel izceļas ar semantiskas meklēšanas rezultātu optimizēšanu un semantiski saistītu secību.

GitHub:Hipersaites pieteikšanās ir redzama.

Iegulšanas modelis:Hipersaites pieteikšanās ir redzama.
Rerankermodelis:Hipersaites pieteikšanās ir redzama.

 Saimnieks| Publicēts 2025-3-18 10:07:55 |
Modeļa nosaukumsversijaOrganizācija / IndivīdsadreseIegulšanas garumsMaksimālais ievades garums
Gtegte-liels-zhAlibaba Dharma akadēmijaHipersaites pieteikšanās ir redzama.1024512
bgebge-liels-zh-v1.5Pekinas Zhiyuan mākslīgā intelekta pētniecības institūtsHipersaites pieteikšanās ir redzama.1024512
m3eM3E bāzeMokaHipersaites pieteikšanās ir redzama.768512
tao8ktao8kHuggingface ir izstrādājis un atvērtā koda amuHipersaites pieteikšanās ir redzama.1024512

Atruna:
Visa programmatūra, programmēšanas materiāli vai raksti, ko publicē Code Farmer Network, ir paredzēti tikai mācību un pētniecības mērķiem; Iepriekš minēto saturu nedrīkst izmantot komerciāliem vai nelikumīgiem mērķiem, pretējā gadījumā lietotājiem ir jāuzņemas visas sekas. Informācija šajā vietnē nāk no interneta, un autortiesību strīdiem nav nekāda sakara ar šo vietni. Iepriekš minētais saturs ir pilnībā jāizdzēš no datora 24 stundu laikā pēc lejupielādes. Ja jums patīk programma, lūdzu, atbalstiet oriģinālu programmatūru, iegādājieties reģistrāciju un iegūstiet labākus oriģinālus pakalpojumus. Ja ir kādi pārkāpumi, lūdzu, sazinieties ar mums pa e-pastu.

Mail To:help@itsvse.com