[IA] (1) Rankings de grandes modelos open source

Pequeno · Publicado em 28/12/2024 10:03:05

Chatbot Arena LLMLista:O login do hiperlink está visível.

Chatbot Arena é uma plataforma aberta para benchmarking de IA por crowdsourcing, desenvolvida por pesquisadores do SkyLab e LMArena da Universidade da Califórnia, Berkeley. Com mais de 1.000.000 de votos de usuários, a plataforma utiliza o modelo Bradley-Terry para gerar rankings em tempo real que classificam os melhores LLMs e chatbots de IA. Para detalhes técnicos, confira nosso artigo.

LiveBench：O login do hiperlink está visível.

Benchmarks projetados especificamente para LLMs, tendo em mente a contaminação por conjunto de testes e avaliação objetiva.

SuperCLUEClassificação geral:O login do hiperlink está visível.

Posicionamento CLUE: Para melhor atender ao entendimento, tarefas e indústria da língua chinesa, como complemento à avaliação geral do modelo linguístico, melhore a infraestrutura coletando, ordenando e publicando tarefas e avaliações padronizadas em chinês, promovendo o desenvolvimento do PLN chinês.

Tabela de Líderes do LLM Aberto：O login do hiperlink está visível.

Compare grandes modelos de linguagem de forma aberta e repetível

Comparação de grandes benchmarks de avaliação de modelos e desempenho：O login do hiperlink está visível.

Esta página mostra o desempenho de múltiplos modelos grandes e convencionais em diversos benchmarks de avaliação, incluindo MMLU, GSM8K, HumanEval e outros conjuntos de dados padrão. Ajudamos desenvolvedores e pesquisadores a entender o desempenho de diferentes modelos grandes em diversas tarefas por meio de resultados de avaliação atualizados em tempo real. Os usuários podem escolher comparar modelos personalizados com benchmarks de avaliação para obter rapidamente as vantagens e desvantagens de diferentes modelos em aplicações práticas.

Pequeno · Publicado em 28/12/2024 10:20:27

Qwen é uma série de grandes modelos de linguagem e grandes modelos multimodais desenvolvidos pela equipe Qwen do Grupo Alibaba.
Qwen2.5：O login do hiperlink está visível.

DeepSeek-V3 é um modelo MoE desenvolvido por conta própria com parâmetros 671B, 37B ativado e pré-treinado em tokens 14.8T.
DeepSeek-V3：O login do hiperlink está visível.

A Zhipu é uma empresa transformada a partir das conquistas tecnológicas do Departamento de Ciência da Computação da Universidade Tsinghua
GLM-4-9B：O login do hiperlink está visível.

[IA] (1) Rankings de grandes modelos open source

Posts Relacionados

Seções visualizadas