Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 1262|Répondre: 3

IA (11) Sélection du modèle d’embarquement

[Copié le lien]
Publié le 14-03-2025 à 23:01:35 | | | |
Exigences : Lorsque les entreprises construisent une base de connaissances RAG, il est important de choisir le modèle d’embedding d’embedding approprié, car la performance de l’embedding détermine la précision de la récupération et détermine indirectement la fiabilité des résultats des grands modèles. Modèles couramment utilisés : bge, m3e, nomic-embed-text, BCEmbedding (NetEase Youdao).

Pourquoi avez-vous besoin d’intégrer un modèle ?

Les ordinateurs ne peuvent gérer que des opérations numériques et ne peuvent pas comprendre directement les formes non numériques de données telles que le langage naturel, le texte, les images et l’audio. Par conséquent, nous devons « vectoriser » pour transformer ces données en formes numériques que les ordinateurs peuvent comprendre et traiter, c’est-à-dire les mapper en représentations vectorielles mathématiques. Ce processus est généralement réalisé à l’aide de modèles d’intégration, qui peuvent capturer efficacement l’information sémantique et les structures internes dans les données.

Le rôle des modèles d’immersion est qu’ils convertissent non seulement des données discrètes (telles que des mots, des fragments d’image ou des fragments audio) en vecteurs continus de faible dimension, mais préservent aussi les relations sémantiques entre les données dans l’espace vectoriel. Par exemple, dans le traitement du langage naturel, les modèles d’immersion peuvent générer des vecteurs de mots, rendant les mots sémantiquement similaires plus proches les uns des autres dans l’espace vectoriel. Cette représentation efficace permet aux ordinateurs d’effectuer des calculs et des analyses complexes basés sur ces vecteurs, améliorant ainsi la compréhension et le traitement de données complexes telles que le texte, les images ou les sons.

En intégrant la vectorisation du modèle, les ordinateurs peuvent non seulement traiter efficacement des données à grande échelle, mais peuvent aussi démontrer des performances et des capacités de généralisation plus fortes dans diverses tâches (telles que la classification, la récupération, la génération, etc.).

Évaluation du modèle intégré

Pour juger de la qualité d’un modèle embarqué, il doit exister un ensemble clair de critères. MTEB et C-MTEB sont couramment utilisés pour le benchmarking.

MTEB

Huggingface dispose d’une norme d’évaluation MTEB (Massive Multilingual Text Embedding Benchmark), qui est une norme relativement reconnue dans l’industrie et peut servir de référence. Il couvre 8 tâches d’intégration, un total de 58 ensembles de données et 112 langues, ce qui en fait le benchmark d’intégration de texte le plus complet à ce jour.



Liste:La connexion hyperlientérée est visible.
Adresse GitHub :La connexion hyperlientérée est visible.



C-MTEB

C-MTEB est la référence chinoise la plus complète pour l’évaluation vectorielle sémantique, couvrant 6 catégories de tâches d’évaluation (récupération, tri, similarité de phrases, raisonnement, classification, regroupement) et 35 ensembles de données.

Articles C-MTEB :La connexion hyperlientérée est visible.
Codes et classements :La connexion hyperlientérée est visible.(Beaucoup d’adresses sur Internet sont anciennes)





Précédent:Linux commande, sudo et abréviations anglaises appropriées
Prochain:.NET/C# utilise l’algorithme SM3 pour générer des signatures
 Propriétaire| Publié le 17-03-2025 08:55:55 |
Intégration Arctique 2.0

Snowflake est ravi d’annoncer la sortie d’Arctic Embed L 2.0 et Arctic Embed M 2.0, la prochaine itération de notre modèle d’embedding de pointe, désormais compatible avec la recherche multilingue.La connexion hyperlientérée est visible.

Téléchargement de modèles

Intégration arctique L 2.0 :La connexion hyperlientérée est visible.
Implantation arctique M 2.0 :La connexion hyperlientérée est visible.

 Propriétaire| Publié le 17-03-2025 à 16:30:21 |
BCEmbedding est une bibliothèque de modèles d’algorithmes de représentation sémantique bilingues et croisés développée par NetEase Youdao, comprenant deux types de modèles de base : EmbeddingModel et RerankerModel. EmbeddingModel est spécifiquement conçu pour générer des vecteurs sémantiques et joue un rôle central dans la recherche sémantique et les questions-réponses, tandis que RerankerModel excelle dans l’optimisation des résultats de recherche sémantique et le séquençage sémantiquement lié.

GitHub :La connexion hyperlientérée est visible.

EmbeddingModèle :La connexion hyperlientérée est visible.
RerankerModel :La connexion hyperlientérée est visible.

 Propriétaire| Publié le 18-03-2025 à 10:07:55 |
Nom du modèleVersionOrganisation/IndividuadresseLongueur d’insertionLongueur maximale d’entrée
GteGTE-large-zhAcadémie Alibaba DharmaLa connexion hyperlientérée est visible.1024512
Bgebge-large-zh-v1.5Institut de recherche en intelligence artificielle Zhiyuan de PékinLa connexion hyperlientérée est visible.1024512
M3EM3E-baseMokaLa connexion hyperlientérée est visible.768512
tao8ktao8kHuggingface est développé et open source par AMULa connexion hyperlientérée est visible.1024512

Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com