Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 1262|Svare: 3

AI (11) Valg av embeddingsmodell

[Kopier lenke]
Publisert 14.03.2025 kl. 23:01:35 | | | |
Krav: Når virksomheter bygger en RAG-kunnskapsbase, er det viktig å velge riktig embedding-modell, da ytelsen til embedding avgjør nøyaktigheten i hentingen og indirekte påliteligheten til utdataene til store modeller. Ofte brukte modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Hvorfor trenger du å legge inn en modell?

Datamaskiner kan kun håndtere numeriske operasjoner og kan ikke direkte forstå ikke-numeriske former for data som naturlig språk, tekst, bilder og lyd. Derfor må vi «vektorisere» for å omdanne disse dataene til numeriske former som datamaskiner kan forstå og behandle, det vil si kartlegge dem til matematiske vektorrepresentasjoner. Denne prosessen oppnås vanligvis ved hjelp av embedding-modeller, som effektivt kan fange semantisk informasjon og interne strukturer i dataene.

Rollen til innbyggingsmodeller er at de ikke bare konverterer diskrete data (som ord, bildefragmenter eller lydfragmenter) til kontinuerlige lavdimensjonale vektorer, men også bevarer de semantiske forholdene mellom dataene i vektorrommet. For eksempel, i naturlig språkbehandling kan embeddingsmodeller generere ordvektorer, noe som gjør semantisk like ord nærmere hverandre i vektorrommet. Denne effektive representasjonen gjør det mulig for datamaskiner å utføre komplekse beregninger og analyser basert på disse vektorene, og dermed bedre forstå og behandle komplekse data som tekst, bilder eller lyder.

Ved å integrere vektoriseringen av modellen kan datamaskiner ikke bare effektivt behandle store data, men også demonstrere sterkere ytelses- og generaliseringsevner i ulike oppgaver (som klassifisering, henting, generering osv.).

Evaluering av innebygd modell

For å vurdere kvaliteten på en innebygd modell må det finnes et klart sett med kriterier. MTEB og C-MTEB brukes ofte til benchmarking.

MTEB

Huggingface har en MTEB (Massive Multilingual Text Embedding Benchmark) evalueringsstandard, som er en relativt anerkjent standard i bransjen og kan brukes som referanse. Den dekker 8 embedding-oppgaver, totalt 58 datasett og 112 språk, noe som gjør den til den mest omfattende benchmarken for tekstembedding til dags dato.



Liste:Innloggingen med hyperkoblingen er synlig.
GitHub-adresse:Innloggingen med hyperkoblingen er synlig.



C-MTEB

C-MTEB er den mest omfattende kinesiske benchmarken for semantisk vektorevaluering, og dekker 6 kategorier av evalueringsoppgaver (henting, sortering, setningslikhet, resonnement, klassifisering, klynging) og 35 datasett.

C-MTEB-papirer:Innloggingen med hyperkoblingen er synlig.
Koder og topplister:Innloggingen med hyperkoblingen er synlig.(Mange adresser på Internett er gamle)





Foregående:Linux-kommandoer sudo og passende engelske ordforkortelser
Neste:.NET/C# bruker SM3-algoritmen for å generere signaturer
 Vert| Publisert 2025-03-17 08:55:55 |
Arctic Embed 2.0

Snowflake er glade for å kunngjøre lanseringen av Arctic Embed L 2.0 og Arctic Embed M 2.0, neste versjon av vår banebrytende embedding-modell, nå med støtte for flerspråklig søk.Innloggingen med hyperkoblingen er synlig.

Modellnedlasting

Arctic Embed L 2.0:Innloggingen med hyperkoblingen er synlig.
Arctic Embed M 2.0:Innloggingen med hyperkoblingen er synlig.

 Vert| Publisert 17.03.2025 kl. 16:30:21 |
BCEmbedding er et modellbibliotek av tospråklige og tverrspråklige semantiske representasjonsalgoritmer utviklet av NetEase Youdao, som inkluderer to typer grunnleggende modeller: EmbeddingModel og RerankerModel. EmbeddingModel er spesielt designet for å generere semantiske vektorer og spiller en avgjørende rolle i semantisk søk og spørsmål og svar, mens RerankerModel utmerker seg i å optimalisere semantiske søkeresultater og semantisk relatert sekvensering.

GitHub:Innloggingen med hyperkoblingen er synlig.

EmbeddingModel:Innloggingen med hyperkoblingen er synlig.
RerankerModel:Innloggingen med hyperkoblingen er synlig.

 Vert| Publisert 18.03.2025 kl. 10:07:55 |
ModellnavnversjonOrganisasjon/IndividueltadresseInnebygd lengdeMaksimal inngangslengde
Gtegte-large-zhAlibaba Dharma-akademietInnloggingen med hyperkoblingen er synlig.1024512
BGEBGE-large-ZH-v1.5Beijing Zhiyuan forskningsinstitutt for kunstig intelligensInnloggingen med hyperkoblingen er synlig.1024512
M3Em3e-baseMokaInnloggingen med hyperkoblingen er synlig.768512
tao8ktao8kHuggingface er utviklet og åpen kildekode av amuInnloggingen med hyperkoblingen er synlig.1024512

Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com