Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 1262|Svar: 3

AI (11) Val av inbäddningsmodell

[Kopiera länk]
Publicerad den 2025-3-14 23:01:35 | | | |
Krav: När företag bygger en RAG-kunskapsbas är det viktigt att välja lämplig inbäddningsmodell, eftersom prestandan för inbäddningen avgör noggrannheten i återhämtningen och indirekt tillförlitligheten hos utdata från stora modeller. Vanligt använda modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Varför behöver du bädda in en modell?

Datorer kan endast hantera numeriska operationer och kan inte direkt förstå icke-numeriska former av data såsom naturligt språk, text, bilder och ljud. Därför behöver vi "vektorisera" för att omvandla dessa data till numeriska former som datorer kan förstå och bearbeta, det vill säga avbilda dem till matematiska vektorrepresentationer. Denna process uppnås vanligtvis med hjälp av inbäddningsmodeller, som effektivt kan fånga semantisk information och interna strukturer i datan.

Inbäddningsmodellers roll är att de inte bara omvandlar diskret data (såsom ord, bildfragment eller ljudfragment) till kontinuerliga lågdimensionella vektorer, utan också bevarar de semantiska relationerna mellan data i vektorrummet. Till exempel kan inbäddningsmodeller i naturlig språkbehandling generera ordvektorer, vilket gör semantiskt lika ord närmare varandra i vektorrummet. Denna effektiva representation gör det möjligt för datorer att utföra komplexa beräkningar och analyser baserade på dessa vektorer, vilket ger en bättre förståelse och bearbetning av komplex data såsom text, bilder eller ljud.

Genom att integrera modellens vektorisering kan datorer inte bara effektivt bearbeta storskalig data, utan också demonstrera starkare prestanda- och generaliseringsförmåga i olika uppgifter (såsom klassificering, hämtning, generering, etc.).

Utvärdering av inbäddningsmodellen

För att bedöma kvaliteten på en inbäddad modell måste det finnas en tydlig uppsättning kriterier. MTEB och C-MTEB används ofta för benchmarking.

MTEB

Huggingface har en MTEB (Massive Multilingual Text Embedding Benchmark) utvärderingsstandard, som är en relativt erkänd standard i branschen och kan användas som referens. Den täcker 8 inbäddningsuppgifter, totalt 58 dataset och 112 språk, vilket gör den till den mest omfattande benchmarken för textinbäddning hittills.



Lista:Inloggningen med hyperlänken är synlig.
GitHub-adress:Inloggningen med hyperlänken är synlig.



C-MTEB

C-MTEB är det mest omfattande kinesiska benchmarken för semantisk vektorutvärdering och täcker 6 kategorier av utvärderingsuppgifter (återvinning, sortering, meningslikhet, resonemang, klassificering, klustring) och 35 dataset.

C-MTEB-papper:Inloggningen med hyperlänken är synlig.
Koder och topplistor:Inloggningen med hyperlänken är synlig.(Många adresser på internet är gamla)





Föregående:Linux-kommandon sudo och apt engelska ordförkortningar
Nästa:.NET/C# använder SM3-algoritmen för att generera signaturer
 Hyresvärd| Publicerad den 2025-3-17 08:55:55 |
Arctic Embed 2.0

Snowflake är glada att kunna tillkännage lanseringen av Arctic Embed L 2.0 och Arctic Embed M 2.0, nästa version av vår banbrytande inbäddningsmodell, nu med stöd för flerspråkig sökning.Inloggningen med hyperlänken är synlig.

Modellnedladdning

Arctic Embed L 2.0:Inloggningen med hyperlänken är synlig.
Arctic Embed M 2.0:Inloggningen med hyperlänken är synlig.

 Hyresvärd| Publicerad den 2025-3-17 16:30:21 |
BCEmbedding är ett modellbibliotek av tvåspråkiga och tvärspråkiga semantiska representationsalgoritmer utvecklade av NetEase Youdao, inklusive två typer av grundläggande modeller: EmbeddingModel och RerankerModel. EmbeddingModel är specifikt utformad för att generera semantiska vektorer och spelar en avgörande roll i semantisk sökning och frågor och svar, medan RerankerModel utmärker sig i att optimera semantiska sökresultat och semantiskt relaterad sekvensering.

GitHub:Inloggningen med hyperlänken är synlig.

EmbeddingModel:Inloggningen med hyperlänken är synlig.
RerankerModel:Inloggningen med hyperlänken är synlig.

 Hyresvärd| Publicerad den 2025-3-18 10:07:55 |
ModellnamnversionOrganisation/IndividadressInbäddningslängdMaximal inmatningslängd
Gtegte-large-zhAlibaba Dharma AcademyInloggningen med hyperlänken är synlig.1024512
BgeBGE-large-ZH-v1.5Beijing Zhiyuan Artificiell IntelligensforskningsinstitutInloggningen med hyperlänken är synlig.1024512
M3Em3e-basMokaInloggningen med hyperlänken är synlig.768512
tao8ktao8kHuggingface utvecklas och är öppen källkod av amuInloggningen med hyperlänken är synlig.1024512

Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com