See artikkel on masintõlke peegelartikkel, palun klõpsake siia, et hüpata algse artikli juurde.

Vaade: 1262|Vastuse: 3

AI (11) Manusmudeli valik

[Kopeeri link]
Postitatud 2025-3-14 23:01:35 | | | |
Nõuded: Kui ettevõtted ehitavad RAG-teadmiste baasi, on oluline valida sobiv embeddingu mudel, kuna manustamise jõudlus määrab otsingu täpsuse ja kaudselt suurte mudelite väljundi töökindluse. Levinumad mudelid: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Miks on vaja mudelit sisse ehitada?

Arvutid suudavad töödelda ainult numbrilisi operatsioone ega mõista otseselt mitte-numbrilisi andmevorme nagu loomulik keel, tekst, pildid ja heli. Seetõttu peame "vektoriseerima", et teisendada need andmed arvulisteks vormideks, mida arvutid mõistavad ja töötlevad, st kaardistada need matemaatilisteks vektorikujutusteks. See protsess saavutatakse tavaliselt manustatavate mudelite abil, mis suudavad tõhusalt haarata semantilist informatsiooni ja sisemisi struktuure andmetes.

Manusmudelite roll seisneb selles, et need mitte ainult ei teisenda diskreetseid andmeid (nagu sõnad, pildifragmendid või helifragmendid) pidevateks madala dimensiooniga vektoriteks, vaid säilitavad ka semantilisi seoseid andmete vahel vektorruumis. Näiteks loomuliku keele töötlemises võivad manustamismudelid genereerida sõnavektoreid, muutes sõnad vektorruumis semantiliselt sarnaseks üksteisele lähemale. See tõhus esitus võimaldab arvutitel teha keerukaid arvutusi ja analüüse nende vektorite põhjal, aidates seeläbi paremini mõista ja töödelda keerukaid andmeid nagu tekst, pildid või helid.

Mudeli vektoriseerimise integreerimisega saavad arvutid mitte ainult tõhusalt töödelda suuremahulisi andmeid, vaid näidata ka tugevamaid jõudlus- ja üldistamisvõimeid erinevates ülesannetes (näiteks klassifitseerimine, otsingud, genereerimine jne).

Manusmudeli hindamine

Manusmudeli kvaliteedi hindamiseks peab olema selge kriteeriumite komplekt. MTEB ja C-MTEB on sageli kasutusel võrdluseks.

MTEB

Huggingface'il on MTEB (Massive Multilingual Text Embedding Benchmark) hindamisstandard, mis on tööstuses suhteliselt tunnustatud standard ja mida saab kasutada võrdlusena. See hõlmab 8 manustamisülesannet, kokku 58 andmekogumit ja 112 keelt, muutes selle seni kõige põhjalikumaks teksti manustamise võrdluspunktiks.



Loend:Hüperlingi sisselogimine on nähtav.
GitHubi aadress:Hüperlingi sisselogimine on nähtav.



C-MTEB

C-MTEB on kõige põhjalikum Hiina semantilise vektori hindamise võrdlusalus, mis hõlmab 6 hindamisülesannete kategooriat (otsimine, sorteerimine, lausete sarnasus, põhjendus, klassifitseerimine, klasterdamine) ja 35 andmestikku.

C-MTEB dokumendid:Hüperlingi sisselogimine on nähtav.
Koodid ja edetabelid:Hüperlingi sisselogimine on nähtav.(Paljud interneti aadressid on vanad)





Eelmine:Linuxi käsud sudo ja sobivad ingliskeelsed sõnalühendid
Järgmine:.NET/C# kasutab SM3 algoritmi allkirjade genereerimiseks
 Üürileandja| Postitatud 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake on põnevil, et saab teatada Arctic Embed L 2.0 ja Arctic Embed M 2.0 väljalastest, mis on meie tipptasemel manustamismudeli järgmine versioon, mis toetab nüüd mitmekeelset otsingut.Hüperlingi sisselogimine on nähtav.

Mudeli allalaadimine

Arktika Embed L 2.0:Hüperlingi sisselogimine on nähtav.
Arctic Embed M 2.0:Hüperlingi sisselogimine on nähtav.

 Üürileandja| Postitatud 2025-3-17 16:30:21 |
BCEmbedding on NetEase Youdao poolt välja töötatud kakskeelsete ja ristkeelsete semantiliste esitusalgoritmide mudelikogu, mis sisaldab kahte tüüpi põhimudeleid: EmbeddingModel ja RerankerModel. EmbeddingModel on spetsiaalselt loodud semantiliste vektorite genereerimiseks ning mängib keskset rolli semantilises otsingus ja küsimustes-vastustes, samas kui RerankerModel paistab silma semantiliste otsingutulemuste ja semantiliselt seotud järjestamise optimeerimisel.

GitHub:Hüperlingi sisselogimine on nähtav.

EmbeddingModel:Hüperlingi sisselogimine on nähtav.
RerankerModel:Hüperlingi sisselogimine on nähtav.

 Üürileandja| Postitatud 2025-3-18 10:07:55 |
Mudeli nimiversioonOrganisatsioon/IsiksusaadressEmbed'i pikkusMaksimaalne sisendpikkus
Gtegte-large-zhAlibaba Dharma AkadeemiaHüperlingi sisselogimine on nähtav.1024512
BGEbge-large-zh-v1.5Pekingi Zhiyuani tehisintellekti uurimisinstituutHüperlingi sisselogimine on nähtav.1024512
m3eM3E-baasMokaHüperlingi sisselogimine on nähtav.768512
tao8ktao8kHuggingface on arendatud ja avatud lähtekoodiga AMU pooltHüperlingi sisselogimine on nähtav.1024512

Disclaimer:
Kõik Code Farmer Networki poolt avaldatud tarkvara, programmeerimismaterjalid või artiklid on mõeldud ainult õppimiseks ja uurimistööks; Ülaltoodud sisu ei tohi kasutada ärilistel ega ebaseaduslikel eesmärkidel, vastasel juhul kannavad kasutajad kõik tagajärjed. Selle saidi info pärineb internetist ning autoriõiguste vaidlused ei ole selle saidiga seotud. Ülaltoodud sisu tuleb oma arvutist täielikult kustutada 24 tunni jooksul pärast allalaadimist. Kui sulle programm meeldib, palun toeta originaaltarkvara, osta registreerimist ja saa paremaid ehtsaid teenuseid. Kui esineb rikkumist, palun võtke meiega ühendust e-posti teel.

Mail To:help@itsvse.com