Eisen: Wanneer ondernemingen een RAG-kennisbank opbouwen, is het belangrijk om het juiste embeddingmodel te kiezen, omdat de prestaties van het inbedden de nauwkeurigheid van het ophalen bepalen en indirect de betrouwbaarheid van de output van grote modellen bepalen. Veelgebruikte modellen: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Waarom moet je een model embeden?
Computers kunnen alleen numerieke bewerkingen uitvoeren en kunnen niet-numerieke vormen van data zoals natuurlijke taal, tekst, afbeeldingen en audio niet direct begrijpen. Daarom moeten we "vectoriseren" om deze gegevens om te zetten in numerieke vormen die computers kunnen begrijpen en verwerken, dat wil zeggen, ze kunnen mappen in wiskundige vectorrepresentaties. Dit proces wordt meestal bereikt met behulp van embeddingmodellen, die effectief semantische informatie en interne structuren in de data kunnen vastleggen.
De rol van embeddingmodellen is dat ze niet alleen discrete data (zoals woorden, beeldfragmenten of audiofragmenten) omzetten in continue laagdimensionale vectoren, maar ook de semantische relaties tussen de data in de vectorruimte behouden. In natuurlijke taalverwerking kunnen embedding-modellen bijvoorbeeld woordvectoren genereren, waardoor woorden semantisch dichter bij elkaar komen in vectorruimte. Deze efficiënte representatie stelt computers in staat complexe berekeningen en analyses uit te voeren op basis van deze vectoren, waardoor complexe data zoals tekst, afbeeldingen of geluiden beter kunnen begrijpen en verwerken.
Door de vectorisatie van het model in te betten, kunnen computers niet alleen grootschalige data efficiënt verwerken, maar ook sterkere prestaties en generalisatiemogelijkheden tonen in diverse taken (zoals classificatie, opvraging, generatie, enz.).
Evaluatie van het embed-model
Om de kwaliteit van een embedded model te beoordelen, moet er een duidelijke set criteria zijn. MTEB en C-MTEB worden vaak gebruikt voor benchmarking.
MTEB
Huggingface heeft een MTEB (Massive Multilingual Text Embedding Benchmark) evaluatiestandaard, die een relatief erkende standaard is in de industrie en als referentie kan dienen. Het omvat 8 embeddingtaken, in totaal 58 datasets en 112 talen, waarmee het tot nu toe de meest uitgebreide benchmark voor tekst-embedding is.
Lijst:De hyperlink-login is zichtbaar. GitHub-adres:De hyperlink-login is zichtbaar.
C-MTEB
C-MTEB is de meest uitgebreide Chinese benchmark voor semantische vectorevaluatie, die 6 categorieën evaluatietaken omvat (opzoeken, sorteren, zinsgelijkenis, redeneren, classificatie, clustering) en 35 datasets.
C-MTEB Papers:De hyperlink-login is zichtbaar. Codes en ranglijsten:De hyperlink-login is zichtbaar.(Veel adressen op internet zijn oud)
|