Exigences : Lorsque les entreprises construisent une base de connaissances RAG, il est important de choisir le modèle d’embedding d’embedding approprié, car la performance de l’embedding détermine la précision de la récupération et détermine indirectement la fiabilité des résultats des grands modèles. Modèles couramment utilisés : bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).
Pourquoi avez-vous besoin d’intégrer un modèle ?
Les ordinateurs ne peuvent gérer que des opérations numériques et ne peuvent pas comprendre directement les formes non numériques de données telles que le langage naturel, le texte, les images et l’audio. Par conséquent, nous devons « vectoriser » pour transformer ces données en formes numériques que les ordinateurs peuvent comprendre et traiter, c’est-à-dire les mapper en représentations vectorielles mathématiques. Ce processus est généralement réalisé à l’aide de modèles d’intégration, qui peuvent capturer efficacement l’information sémantique et les structures internes dans les données.
Le rôle des modèles d’immersion est qu’ils convertissent non seulement des données discrètes (telles que des mots, des fragments d’image ou des fragments audio) en vecteurs continus de faible dimension, mais préservent aussi les relations sémantiques entre les données dans l’espace vectoriel. Par exemple, dans le traitement du langage naturel, les modèles d’immersion peuvent générer des vecteurs de mots, rendant les mots sémantiquement similaires plus proches les uns des autres dans l’espace vectoriel. Cette représentation efficace permet aux ordinateurs d’effectuer des calculs et des analyses complexes basés sur ces vecteurs, améliorant ainsi la compréhension et le traitement de données complexes telles que le texte, les images ou les sons.
En intégrant la vectorisation du modèle, les ordinateurs peuvent non seulement traiter efficacement des données à grande échelle, mais peuvent aussi démontrer des performances et des capacités de généralisation plus fortes dans diverses tâches (telles que la classification, la récupération, la génération, etc.).
Évaluation du modèle intégré
Pour juger de la qualité d’un modèle embarqué, il doit exister un ensemble clair de critères. MTEB et C-MTEB sont couramment utilisés pour le benchmarking.
MTEB
Huggingface dispose d’une norme d’évaluation MTEB (Massive Multilingual Text Embedding Benchmark), qui est une norme relativement reconnue dans l’industrie et peut servir de référence. Il couvre 8 tâches d’intégration, un total de 58 ensembles de données et 112 langues, ce qui en fait le benchmark d’intégration de texte le plus complet à ce jour.
Liste:La connexion hyperlientérée est visible. Adresse GitHub :La connexion hyperlientérée est visible.
C-MTEB
C-MTEB est la référence chinoise la plus complète pour l’évaluation vectorielle sémantique, couvrant 6 catégories de tâches d’évaluation (récupération, tri, similarité de phrases, raisonnement, classification, regroupement) et 35 ensembles de données.
Articles C-MTEB :La connexion hyperlientérée est visible. Codes et classements :La connexion hyperlientérée est visible.(Beaucoup d’adresses sur Internet sont anciennes)
|