[IA] (1) Clasificaciones de grandes modelos de código abierto

Pequeña basura · Publicado en 28/12/2024 10:03:05

Chatbot Arena LLMLista:El inicio de sesión del hipervínculo es visible.

Chatbot Arena es una plataforma abierta para el crowdsourcing de benchmarking de IA, desarrollada por investigadores de SkyLab y LMArena en la Universidad de California, Berkeley. Con más de 1.000.000 de votos de usuarios, la plataforma utiliza el modelo Bradley-Terry para generar clasificaciones en tiempo real que clasifican los mejores LLMs y chatbots de IA. Para más detalles técnicos, consulta nuestro artículo.

LiveBench：El inicio de sesión del hipervínculo es visible.

Referencias diseñadas específicamente para LLMs, pensadas en la contaminación por conjuntos de pruebas y la evaluación objetiva.

SuperCLUEClasificación general:El inicio de sesión del hipervínculo es visible.

Posicionamiento CLUE: Para servir mejor al entendimiento, las tareas y la industria del idioma chino, como complemento a la evaluación general de modelos de lenguaje, se mejora la infraestructura recopilando, ordenando y publicando tareas y evaluaciones estandarizadas en chino, y en última instancia promueve el desarrollo de la PNL china.

Tabla de Clasificación Open LLM：El inicio de sesión del hipervínculo es visible.

Comparar modelos de lenguaje grandes de forma abierta y repetible

Comparación de grandes benchmarks de evaluación de modelos y rendimiento：El inicio de sesión del hipervínculo es visible.

Esta página muestra el rendimiento de múltiples modelos grandes y convencionales en diversos benchmarks de evaluación, incluyendo MMLU, GSM8K, HumanEval y otros conjuntos de datos estándar. Ayudamos a desarrolladores e investigadores a comprender el rendimiento de diferentes modelos grandes en diversas tareas mediante resultados de evaluación actualizados en tiempo real. Los usuarios pueden elegir comparar modelos personalizados con benchmarks de evaluación para obtener rápidamente las ventajas y desventajas de diferentes modelos en aplicaciones prácticas.

Pequeña basura · Publicado en 28/12/2024 10:20:27

Qwen es una serie de grandes modelos de lenguaje y grandes modelos multimodales desarrollados por el equipo Qwen del Grupo Alibaba.
Qwen2.5：El inicio de sesión del hipervínculo es visible.

DeepSeek-V3 es un modelo MoE desarrollado por él mismo con parámetros 671B, 37B activados y preentrenado con tokens 14,8T.
DeepSeek-V3：El inicio de sesión del hipervínculo es visible.

Zhipu es una empresa transformada a partir de los logros tecnológicos del Departamento de Informática de la Universidad de Tsinghua
GLM-4-9B：El inicio de sesión del hipervínculo es visible.

[IA] (1) Clasificaciones de grandes modelos de código abierto

Publicaciones relacionadas

Secciones vistas