Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 1600|Resposta: 1

[IA] (1) Rankings de grandes modelos open source

[Copiar link]
Postado em 28-12-2024 às 10:03:05 | | | |
Chatbot Arena LLMLista:O login do hiperlink está visível.

Chatbot Arena é uma plataforma aberta para benchmarking de IA por crowdsourcing, desenvolvida por pesquisadores do SkyLab e LMArena da Universidade da Califórnia, Berkeley. Com mais de 1.000.000 de votos de usuários, a plataforma utiliza o modelo Bradley-Terry para gerar rankings em tempo real que classificam os melhores LLMs e chatbots de IA. Para detalhes técnicos, confira nosso artigo.



LiveBenchO login do hiperlink está visível.

Benchmarks projetados especificamente para LLMs, tendo em mente a contaminação por conjunto de testes e avaliação objetiva.



SuperCLUEClassificação geral:O login do hiperlink está visível.

Posicionamento CLUE: Para melhor atender ao entendimento, tarefas e indústria da língua chinesa, como complemento à avaliação geral do modelo linguístico, melhore a infraestrutura coletando, ordenando e publicando tarefas e avaliações padronizadas em chinês, promovendo o desenvolvimento do PLN chinês.



Tabela de Líderes do LLM AbertoO login do hiperlink está visível.

Compare grandes modelos de linguagem de forma aberta e repetível



Comparação de grandes benchmarks de avaliação de modelos e desempenhoO login do hiperlink está visível.

Esta página mostra o desempenho de múltiplos modelos grandes e convencionais em diversos benchmarks de avaliação, incluindo MMLU, GSM8K, HumanEval e outros conjuntos de dados padrão. Ajudamos desenvolvedores e pesquisadores a entender o desempenho de diferentes modelos grandes em diversas tarefas por meio de resultados de avaliação atualizados em tempo real. Os usuários podem escolher comparar modelos personalizados com benchmarks de avaliação para obter rapidamente as vantagens e desvantagens de diferentes modelos em aplicações práticas.





Anterior:Copie a imagem do blob para a prancheta
Próximo:Remoção Angular Zone.js Explore novas soluções Zoneless
 Senhorio| Postado em 28-12-2024 10:20:27 |
Qwen é uma série de grandes modelos de linguagem e grandes modelos multimodais desenvolvidos pela equipe Qwen do Grupo Alibaba.
Qwen2.5O login do hiperlink está visível.

DeepSeek-V3 é um modelo MoE desenvolvido por conta própria com parâmetros 671B, 37B ativado e pré-treinado em tokens 14.8T.
DeepSeek-V3O login do hiperlink está visível.

A Zhipu é uma empresa transformada a partir das conquistas tecnológicas do Departamento de Ciência da Computação da Universidade Tsinghua
GLM-4-9BO login do hiperlink está visível.

Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com