Este artículo es un artículo espejo de traducción automática, por favor haga clic aquí para saltar al artículo original.

Vista: 1600|Respuesta: 1

[IA] (1) Clasificaciones de grandes modelos de código abierto

[Copiar enlace]
Publicado el 28-12-2024 10:03:05 | | | |
Chatbot Arena LLMLista:El inicio de sesión del hipervínculo es visible.

Chatbot Arena es una plataforma abierta para el crowdsourcing de benchmarking de IA, desarrollada por investigadores de SkyLab y LMArena en la Universidad de California, Berkeley. Con más de 1.000.000 de votos de usuarios, la plataforma utiliza el modelo Bradley-Terry para generar clasificaciones en tiempo real que clasifican los mejores LLMs y chatbots de IA. Para más detalles técnicos, consulta nuestro artículo.



LiveBenchEl inicio de sesión del hipervínculo es visible.

Referencias diseñadas específicamente para LLMs, pensadas en la contaminación por conjuntos de pruebas y la evaluación objetiva.



SuperCLUEClasificación general:El inicio de sesión del hipervínculo es visible.

Posicionamiento CLUE: Para servir mejor al entendimiento, las tareas y la industria del idioma chino, como complemento a la evaluación general de modelos de lenguaje, se mejora la infraestructura recopilando, ordenando y publicando tareas y evaluaciones estandarizadas en chino, y en última instancia promueve el desarrollo de la PNL china.



Tabla de Clasificación Open LLMEl inicio de sesión del hipervínculo es visible.

Comparar modelos de lenguaje grandes de forma abierta y repetible



Comparación de grandes benchmarks de evaluación de modelos y rendimientoEl inicio de sesión del hipervínculo es visible.

Esta página muestra el rendimiento de múltiples modelos grandes y convencionales en diversos benchmarks de evaluación, incluyendo MMLU, GSM8K, HumanEval y otros conjuntos de datos estándar. Ayudamos a desarrolladores e investigadores a comprender el rendimiento de diferentes modelos grandes en diversas tareas mediante resultados de evaluación actualizados en tiempo real. Los usuarios pueden elegir comparar modelos personalizados con benchmarks de evaluación para obtener rápidamente las ventajas y desventajas de diferentes modelos en aplicaciones prácticas.





Anterior:Copia la imagen del blob al portapapeles
Próximo:Eliminación angular Zone.js Explorar nuevas soluciones Zoneless
 Propietario| Publicado el 28-12-2024 10:20:27 |
Qwen es una serie de grandes modelos de lenguaje y grandes modelos multimodales desarrollados por el equipo Qwen del Grupo Alibaba.
Qwen2.5El inicio de sesión del hipervínculo es visible.

DeepSeek-V3 es un modelo MoE desarrollado por él mismo con parámetros 671B, 37B activados y preentrenado con tokens 14,8T.
DeepSeek-V3El inicio de sesión del hipervínculo es visible.

Zhipu es una empresa transformada a partir de los logros tecnológicos del Departamento de Informática de la Universidad de Tsinghua
GLM-4-9BEl inicio de sesión del hipervínculo es visible.

Renuncia:
Todo el software, materiales de programación o artículos publicados por Code Farmer Network son únicamente para fines de aprendizaje e investigación; El contenido anterior no se utilizará con fines comerciales o ilegales; de lo contrario, los usuarios asumirán todas las consecuencias. La información de este sitio proviene de Internet, y las disputas de derechos de autor no tienen nada que ver con este sitio. Debes eliminar completamente el contenido anterior de tu ordenador en un plazo de 24 horas desde la descarga. Si te gusta el programa, por favor apoya el software genuino, compra el registro y obtén mejores servicios genuinos. Si hay alguna infracción, por favor contáctanos por correo electrónico.

Mail To:help@itsvse.com