Krav: Når virksomheter bygger en RAG-kunnskapsbase, er det viktig å velge riktig embedding-modell, da ytelsen til embedding avgjør nøyaktigheten i hentingen og indirekte påliteligheten til utdataene til store modeller. Ofte brukte modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Hvorfor trenger du å legge inn en modell?
Datamaskiner kan kun håndtere numeriske operasjoner og kan ikke direkte forstå ikke-numeriske former for data som naturlig språk, tekst, bilder og lyd. Derfor må vi «vektorisere» for å omdanne disse dataene til numeriske former som datamaskiner kan forstå og behandle, det vil si kartlegge dem til matematiske vektorrepresentasjoner. Denne prosessen oppnås vanligvis ved hjelp av embedding-modeller, som effektivt kan fange semantisk informasjon og interne strukturer i dataene.
Rollen til innbyggingsmodeller er at de ikke bare konverterer diskrete data (som ord, bildefragmenter eller lydfragmenter) til kontinuerlige lavdimensjonale vektorer, men også bevarer de semantiske forholdene mellom dataene i vektorrommet. For eksempel, i naturlig språkbehandling kan embeddingsmodeller generere ordvektorer, noe som gjør semantisk like ord nærmere hverandre i vektorrommet. Denne effektive representasjonen gjør det mulig for datamaskiner å utføre komplekse beregninger og analyser basert på disse vektorene, og dermed bedre forstå og behandle komplekse data som tekst, bilder eller lyder.
Ved å integrere vektoriseringen av modellen kan datamaskiner ikke bare effektivt behandle store data, men også demonstrere sterkere ytelses- og generaliseringsevner i ulike oppgaver (som klassifisering, henting, generering osv.).
Evaluering av innebygd modell
For å vurdere kvaliteten på en innebygd modell må det finnes et klart sett med kriterier. MTEB og C-MTEB brukes ofte til benchmarking.
MTEB
Huggingface har en MTEB (Massive Multilingual Text Embedding Benchmark) evalueringsstandard, som er en relativt anerkjent standard i bransjen og kan brukes som referanse. Den dekker 8 embedding-oppgaver, totalt 58 datasett og 112 språk, noe som gjør den til den mest omfattende benchmarken for tekstembedding til dags dato.
Liste:Innloggingen med hyperkoblingen er synlig. GitHub-adresse:Innloggingen med hyperkoblingen er synlig.
C-MTEB
C-MTEB er den mest omfattende kinesiske benchmarken for semantisk vektorevaluering, og dekker 6 kategorier av evalueringsoppgaver (henting, sortering, setningslikhet, resonnement, klassifisering, klynging) og 35 datasett.
C-MTEB-papirer:Innloggingen med hyperkoblingen er synlig. Koder og topplister:Innloggingen med hyperkoblingen er synlig.(Mange adresser på Internett er gamle)
|