Krav: Når virksomheder opbygger en RAG-vidensbase, er det vigtigt at vælge den passende embedding-model, da ydeevnen af embedding bestemmer nøjagtigheden af hentningen og indirekte pålideligheden af outputtet fra store modeller. Almindeligt anvendte modeller: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Hvorfor skal du indlejre en model?
Computere kan kun håndtere numeriske operationer og kan ikke direkte forstå ikke-numeriske former for data såsom naturligt sprog, tekst, billeder og lyd. Derfor skal vi "vektorisere" for at omdanne disse data til numeriske former, som computere kan forstå og behandle, det vil sige kortlægge dem til matematiske vektorrepræsentationer. Denne proces opnås normalt ved hjælp af indlejrede modeller, som effektivt kan indfange semantisk information og interne strukturer i dataene.
Indlejringsmodellers rolle er, at de ikke kun konverterer diskrete data (såsom ord, billedfragmenter eller lydfragmenter) til kontinuerlige lavdimensionelle vektorer, men også bevarer de semantiske relationer mellem dataene i vektorrummet. For eksempel kan embedding-modeller i naturlig sprogbehandling generere ordvektorer, hvilket gør semantisk lignende ord tættere på hinanden i vektorrummet. Denne effektive repræsentation gør det muligt for computere at udføre komplekse beregninger og analyser baseret på disse vektorer, hvilket bedre kan forstå og behandle komplekse data som tekst, billeder eller lyde.
Ved at indlejre vektoriseringen af modellen kan computere ikke blot effektivt behandle store data, men også demonstrere stærkere ydeevne og generaliseringsevner i forskellige opgaver (såsom klassificering, hentning, generering osv.).
Indlejringsmodelevaluering
For at bedømme kvaliteten af en indlejret model skal der være et klart sæt kriterier. MTEB og C-MTEB bruges ofte til benchmarking.
MTEB
Huggingface har en MTEB (Massive Multilingual Text Embedding Benchmark) evalueringsstandard, som er en relativt anerkendt standard i branchen og kan bruges som reference. Den dækker 8 embedding-opgaver, i alt 58 datasæt og 112 sprog, hvilket gør den til den mest omfattende benchmark for tekstindsættelse til dato.
Liste:Hyperlink-login er synlig. GitHub-adresse:Hyperlink-login er synlig.
C-MTEB
C-MTEB er den mest omfattende kinesiske benchmark for semantisk vektorevaluering, der dækker 6 kategorier af evalueringsopgaver (hentning, sortering, sætningslighed, ræsonnement, klassifikation, klyngedannelse) og 35 datasæt.
C-MTEB Papirer:Hyperlink-login er synlig. Koder og ranglister:Hyperlink-login er synlig.(Mange adresser på internettet er gamle)
|