Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 1262|Antwort: 3

KI (11) Auswahl des Embedding-Modells

[Link kopieren]
Veröffentlicht am 14.03.2025, 23:01:35 | | | |
Anforderungen: Beim Aufbau einer RAG-Wissensdatenbank ist es wichtig, das passende Embedding-Embedding-Modell zu wählen, da die Leistung der Einbettung die Genauigkeit der Abrufe bestimmt und indirekt die Zuverlässigkeit der Ausgabe großer Modelle. Häufig verwendete Modelle: bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Warum muss man ein Modell einbetten?

Computer können nur numerische Operationen verarbeiten und können nicht-numerische Datenformen wie natürliche Sprache, Text, Bilder und Audio nicht direkt verstehen. Daher müssen wir diese Daten "vektorisieren", um sie in numerische Formen umzuwandeln, die Computer verstehen und verarbeiten können, also sie in mathematische Vektorrepräsentationen abbilden. Dieser Prozess wird üblicherweise mit Hilfe von Embedding-Modellen erreicht, die semantische Informationen und interne Strukturen in den Daten effektiv erfassen können.

Die Rolle der Einbettungsmodelle besteht darin, dass sie nicht nur diskrete Daten (wie Wörter, Bildfragmente oder Audiofragmente) in kontinuierliche niedrigdimensionale Vektoren umwandeln, sondern auch die semantischen Beziehungen zwischen den Daten im Vektorraum bewahren. Zum Beispiel können Embedding-Modelle in der natürlichen Sprachverarbeitung Wortvektoren generieren, wodurch semantisch ähnliche Wörter im Vektorraum näher beieinander liegen. Diese effiziente Darstellung ermöglicht es Computern, komplexe Berechnungen und Analysen auf Basis dieser Vektoren durchzuführen und so komplexe Daten wie Text, Bilder oder Sounds besser zu verstehen und zu verarbeiten.

Durch die Einbettung der Vektorisierung des Modells können Computer nicht nur groß angelegte Daten effizient verarbeiten, sondern auch stärkere Leistungs- und Generalisierungsfähigkeiten in verschiedenen Aufgaben (wie Klassifizierung, Abruf, Generierung usw.) demonstrieren.

Einbettungsmodellbewertung

Um die Qualität eines eingebetteten Modells zu beurteilen, muss es einen klaren Satz von Kriterien geben. MTEB und C-MTEB werden häufig für Benchmarking verwendet.

MTEB

Huggingface verfügt über einen MTEB (Massive Multilingual Text Embedding Benchmark) Bewertungsstandard, der in der Branche relativ anerkannt ist und als Referenz dienen kann. Es umfasst 8 Einbettungsaufgaben, insgesamt 58 Datensätze und 112 Sprachen und ist damit der bisher umfassendste Benchmark für Texteinbettungen.



Liste:Der Hyperlink-Login ist sichtbar.
GitHub-Adresse:Der Hyperlink-Login ist sichtbar.



C-MTEB

C-MTEB ist der umfassendste chinesische Benchmark zur Bewertung semantischer Vektoren und umfasst 6 Kategorien von Bewertungsaufgaben (Abruf, Sortierung, Satzähnlichkeit, Argumentation, Klassifikation, Clustering) und 35 Datensätze.

C-MTEB-Papiere:Der Hyperlink-Login ist sichtbar.
Codes und Bestenlisten:Der Hyperlink-Login ist sichtbar.(Viele Adressen im Internet sind alt)





Vorhergehend:Linux-Befehle sudo und apt English Word-Abkürzungen
Nächster:.NET/C# verwendet den SM3-Algorithmus zur Erzeugung von Signaturen
 Vermieter| Veröffentlicht am 17.03.2025, 08:55:55 |
Arctic Embed 2.0

Snowflake freut sich, die Veröffentlichung von Arctic Embed L 2.0 und Arctic Embed M 2.0 anzukündigen, die nächste Iteration unseres hochmodernen Embedding-Modells, nun mit Unterstützung für mehrsprachige Suche.Der Hyperlink-Login ist sichtbar.

Modelldownload

Arctic Embed L 2.0:Der Hyperlink-Login ist sichtbar.
Arctic Embed M 2.0:Der Hyperlink-Login ist sichtbar.

 Vermieter| Veröffentlicht am 17.03.2025, 16:30:21 |
BCEmbedding ist eine Modellbibliothek zweisprachiger und lingualer semantischer Darstellungsalgorithmen, die von NetEase Youdao entwickelt wurde und zwei Arten von Grundmodellen umfasst: EmbeddingModel und RerankerModel. EmbeddingModel wurde speziell entwickelt, um semantische Vektoren zu generieren, und spielt eine zentrale Rolle bei semantischer Suche und Q&A, während RerankerModel sich hervorragend in der Optimierung semantischer Suchergebnisse und semantisch verwandter Sequenzierung auszeichnet.

GitHub:Der Hyperlink-Login ist sichtbar.

EmbeddingModel:Der Hyperlink-Login ist sichtbar.
RerankerModel:Der Hyperlink-Login ist sichtbar.

 Vermieter| Veröffentlicht am 18.03.2025, 10:07:55 |
ModellnameVersionOrganisation/EinzelpersonAdresseEinbettungslängeMaximale Eingangslänge
Gtegte-large-zhAlibaba Dharma AkademieDer Hyperlink-Login ist sichtbar.1024512
BgeBGE-Large-ZH-v1.5Beijing Zhiyuan Forschungsinstitut für Künstliche IntelligenzDer Hyperlink-Login ist sichtbar.1024512
m3em3e-baseMokaDer Hyperlink-Login ist sichtbar.768512
tao8ktao8kHuggingface wurde von amu entwickelt und als Open Source veröffentlichtDer Hyperlink-Login ist sichtbar.1024512

Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com