Acest articol este un articol oglindă al traducerii automate, vă rugăm să faceți clic aici pentru a sări la articolul original.

Vedere: 1262|Răspunde: 3

AI (11) Selecția modelului de încorporare

[Copiază linkul]
Postat la 2025-3-14 23:01:35 | | | |
Cerințe: Când întreprinderile construiesc o bază de cunoștințe RAG, este important să se aleagă modelul potrivit de embedding embedding, deoarece performanța embedding-ului determină acuratețea recuperării și determină indirect fiabilitatea rezultatelor modelelor mari. Modele utilizate frecvent: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

De ce ai nevoie să încorporezi un model?

Calculatoarele pot gestiona doar operații numerice și nu pot înțelege direct forme nonnumerice de date, cum ar fi limbajul natural, textul, imaginile și audio-ul. Prin urmare, trebuie să "vectorizăm" aceste date pentru a transforma aceste date în forme numerice pe care calculatoarele să le poată înțelege și procesa, adică să le mapeze în reprezentări vectoriale matematice. Acest proces este realizat de obicei cu ajutorul modelelor de embedding, care pot captura eficient informații semantice și structuri interne în date.

Rolul modelelor de încorporare este că ele nu doar că transformă date discrete (cum ar fi cuvinte, fragmente de imagine sau fragmente audio) în vectori continui de dimensiune joasă, ci și păstrează relațiile semantice dintre date în spațiul vectorial. De exemplu, în procesarea limbajului natural, modelele de încorporare pot genera vectori de cuvinte, făcând cuvintele semantic similare să fie mai apropiate în spațiul vectorial. Această reprezentare eficientă permite calculatoarelor să efectueze calcule și analize complexe bazate pe acești vectori, înțelegând și procesând astfel mai bine date complexe precum text, imagini sau sunete.

Prin încorporarea vectorizării modelului, calculatoarele nu doar că pot procesa eficient date la scară largă, dar pot demonstra și capacități mai puternice de performanță și generalizare în diverse sarcini (cum ar fi clasificarea, recuperarea, generarea etc.).

Evaluarea modelului de încorporare

Pentru a judeca calitatea unui model încorporat, trebuie să existe un set clar de criterii. MTEB și C-MTEB sunt folosite frecvent pentru benchmarking.

MTEB

Huggingface are un standard de evaluare MTEB (Massive Multilingual Text Embedding Benchmark), care este un standard relativ recunoscut în industrie și poate fi folosit ca referință. Acoperă 8 sarcini de embedding, un total de 58 de seturi de date și 112 limbi, fiind cel mai cuprinzător benchmark de încorporare a textului de până acum.



Listă:Autentificarea cu hyperlink este vizibilă.
Adresă GitHub:Autentificarea cu hyperlink este vizibilă.



C-MTEB

C-MTEB este cel mai cuprinzător benchmark chinez pentru evaluarea vectorilor semantici, acoperind 6 categorii de sarcini de evaluare (recuperare, sortare, similaritate a propozițiilor, raționament, clasificare, grupare) și 35 de seturi de date.

Documente C-MTEB:Autentificarea cu hyperlink este vizibilă.
Coduri și clasamente:Autentificarea cu hyperlink este vizibilă.(Multe adrese de pe Internet sunt vechi)





Precedent:Linux comandă sudo și abrevieri englezești potrivite
Următor:.NET/C# folosește algoritmul SM3 pentru a genera semnături
 Proprietarul| Postat la 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake este încântat să anunțe lansarea Arctic Embed L 2.0 și Arctic Embed M 2.0, următoarea iterație a modelului nostru de embedding de ultimă generație, acum cu suport pentru căutare multilingvă.Autentificarea cu hyperlink este vizibilă.

Descărcare model

Arctic Embed L 2.0:Autentificarea cu hyperlink este vizibilă.
Arctic Embed M 2.0:Autentificarea cu hyperlink este vizibilă.

 Proprietarul| Postat la 2025-3-17 16:30:21 |
BCEmbedding este o bibliotecă de modele de algoritmi de reprezentare semantică bilingvă și cross-lingv, dezvoltată de NetEase Youdao, incluzând două tipuri de modele de bază: EmbeddingModel și RerankerModel. EmbeddingModel este conceput special pentru a genera vectori semantici și joacă un rol esențial în căutarea semantică și în întrebări și răspunsuri, în timp ce RerankerModel excelează în optimizarea rezultatelor semantice de căutare și a secvențierii semantic conexe.

GitHub:Autentificarea cu hyperlink este vizibilă.

EmbeddingModel:Autentificarea cu hyperlink este vizibilă.
RerankerModel:Autentificarea cu hyperlink este vizibilă.

 Proprietarul| Postat la 2025-3-18 10:07:55 |
Nume modelversiuneOrganizare/IndividadresăLungimea încorporariiLungimea maximă de intrare
Gtegte-large-zhAcademia Alibaba DharmaAutentificarea cu hyperlink este vizibilă.1024512
bgebge-large-zh-v1.5Institutul de Cercetare în Inteligență Artificială Beijing ZhiyuanAutentificarea cu hyperlink este vizibilă.1024512
M3EM3E-BazăMokaAutentificarea cu hyperlink este vizibilă.768512
tao8ktao8kHuggingface este dezvoltat și open source de amuAutentificarea cu hyperlink este vizibilă.1024512

Disclaimer:
Tot software-ul, materialele de programare sau articolele publicate de Code Farmer Network sunt destinate exclusiv scopurilor de învățare și cercetare; Conținutul de mai sus nu va fi folosit în scopuri comerciale sau ilegale, altfel utilizatorii vor suporta toate consecințele. Informațiile de pe acest site provin de pe Internet, iar disputele privind drepturile de autor nu au legătură cu acest site. Trebuie să ștergi complet conținutul de mai sus de pe calculatorul tău în termen de 24 de ore de la descărcare. Dacă îți place programul, te rugăm să susții software-ul autentic, să cumperi înregistrarea și să primești servicii autentice mai bune. Dacă există vreo încălcare, vă rugăm să ne contactați prin e-mail.

Mail To:help@itsvse.com