[IA] (1) Classements open source de grands modèles

Petite ordure · Publié sur 28/12/2024 10:03:05

Chatbot Arena LLMListe:La connexion hyperlientérée est visible.

Chatbot Arena est une plateforme ouverte pour le crowdsourcing de benchmarking IA, développée par des chercheurs de SkyLab et LMArena à l’Université de Californie à Berkeley. Avec plus de 1 000 000 de votes d’utilisateurs, la plateforme utilise le modèle Bradley-Terry pour générer des classements en temps réel qui classent les meilleurs LLM et chatbots IA. Pour les détails techniques, consultez notre article.

LiveBench：La connexion hyperlientérée est visible.

Des benchmarks conçus spécifiquement pour les LLM, conçus en tenant compte de la contamination par ensemble de tests et d’une évaluation objective.

SuperCLUEClassement général :La connexion hyperlientérée est visible.

Positionnement CLUE : Afin de mieux servir la compréhension de la langue chinoise, les tâches et l’industrie, en complément de l’évaluation générale des modèles linguistiques, améliorez l’infrastructure en collectant, triant et publiant les tâches chinoises ainsi que les évaluations standardisées, et favorisez finalement le développement du NLP chinois.

Classement Open LLM：La connexion hyperlientérée est visible.

Comparez de grands modèles de langage de manière ouverte et reproductible

Comparaison des benchmarks d’évaluation de grands modèles et des performances：La connexion hyperlientérée est visible.

Cette page montre la performance de plusieurs grands modèles grand public sur divers benchmarks d’évaluation, y compris MMLU, GSM8K, HumanEval et d’autres ensembles de données standards. Nous aidons les développeurs et chercheurs à comprendre la performance de différents grands modèles dans diverses tâches grâce à des résultats d’évaluation mis à jour en temps réel. Les utilisateurs peuvent choisir de comparer des modèles personnalisés avec des benchmarks d’évaluation afin d’obtenir rapidement les avantages et inconvénients de différents modèles dans des applications pratiques.

Petite ordure · Publié sur 28/12/2024 10:20:27

Qwen est une série de grands modèles de langage et de grands modèles multimodaux développés par l’équipe Qwen du groupe Alibaba.
Qwen2.5：La connexion hyperlientérée est visible.

DeepSeek-V3 est un modèle MoE auto-développé avec des paramètres 671B, 37B activés, et pré-entraîné sur des tokens 14.8T.
DeepSeek-V3：La connexion hyperlientérée est visible.

Zhipu est une entreprise transformée par les réalisations technologiques du département d’informatique de l’Université Tsinghua
GLM-4-9B：La connexion hyperlientérée est visible.

[IA] (1) Classements open source de grands modèles

Articles connexes

Sections vues