Anforderungen: Beim Aufbau einer RAG-Wissensdatenbank ist es wichtig, das passende Embedding-Embedding-Modell zu wählen, da die Leistung der Einbettung die Genauigkeit der Abrufe bestimmt und indirekt die Zuverlässigkeit der Ausgabe großer Modelle. Häufig verwendete Modelle: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Warum muss man ein Modell einbetten?
Computer können nur numerische Operationen verarbeiten und können nicht-numerische Datenformen wie natürliche Sprache, Text, Bilder und Audio nicht direkt verstehen. Daher müssen wir diese Daten "vektorisieren", um sie in numerische Formen umzuwandeln, die Computer verstehen und verarbeiten können, also sie in mathematische Vektorrepräsentationen abbilden. Dieser Prozess wird üblicherweise mit Hilfe von Embedding-Modellen erreicht, die semantische Informationen und interne Strukturen in den Daten effektiv erfassen können.
Die Rolle der Einbettungsmodelle besteht darin, dass sie nicht nur diskrete Daten (wie Wörter, Bildfragmente oder Audiofragmente) in kontinuierliche niedrigdimensionale Vektoren umwandeln, sondern auch die semantischen Beziehungen zwischen den Daten im Vektorraum bewahren. Zum Beispiel können Embedding-Modelle in der natürlichen Sprachverarbeitung Wortvektoren generieren, wodurch semantisch ähnliche Wörter im Vektorraum näher beieinander liegen. Diese effiziente Darstellung ermöglicht es Computern, komplexe Berechnungen und Analysen auf Basis dieser Vektoren durchzuführen und so komplexe Daten wie Text, Bilder oder Sounds besser zu verstehen und zu verarbeiten.
Durch die Einbettung der Vektorisierung des Modells können Computer nicht nur groß angelegte Daten effizient verarbeiten, sondern auch stärkere Leistungs- und Generalisierungsfähigkeiten in verschiedenen Aufgaben (wie Klassifizierung, Abruf, Generierung usw.) demonstrieren.
Einbettungsmodellbewertung
Um die Qualität eines eingebetteten Modells zu beurteilen, muss es einen klaren Satz von Kriterien geben. MTEB und C-MTEB werden häufig für Benchmarking verwendet.
MTEB
Huggingface verfügt über einen MTEB (Massive Multilingual Text Embedding Benchmark) Bewertungsstandard, der in der Branche relativ anerkannt ist und als Referenz dienen kann. Es umfasst 8 Einbettungsaufgaben, insgesamt 58 Datensätze und 112 Sprachen und ist damit der bisher umfassendste Benchmark für Texteinbettungen.
Liste:Der Hyperlink-Login ist sichtbar. GitHub-Adresse:Der Hyperlink-Login ist sichtbar.
C-MTEB
C-MTEB ist der umfassendste chinesische Benchmark zur Bewertung semantischer Vektoren und umfasst 6 Kategorien von Bewertungsaufgaben (Abruf, Sortierung, Satzähnlichkeit, Argumentation, Klassifikation, Clustering) und 35 Datensätze.
C-MTEB-Papiere:Der Hyperlink-Login ist sichtbar. Codes und Bestenlisten:Der Hyperlink-Login ist sichtbar.(Viele Adressen im Internet sind alt)
|