[AI] (1) Classifiche open source dei grandi modelli

Piccola feccia · Pubblicato su 28/12/2024 10:03:05

Chatbot Arena LLMLista:Il login del link ipertestuale è visibile.

Chatbot Arena è una piattaforma aperta per il crowdsourcing di benchmarking IA, sviluppata da ricercatori di SkyLab e LMArena presso l'Università della California, Berkeley. Con oltre 1.000.000 di voti degli utenti, la piattaforma utilizza il modello Bradley-Terry per generare classifiche in tempo reale che classificano i migliori LLM e chatbot AI. Per dettagli tecnici, consulta il nostro articolo.

LiveBench：Il login del link ipertestuale è visibile.

Benchmark progettati specificamente per gli LLM, tenendo conto della contaminazione da set di test e della valutazione oggettiva.

SuperCLUEClassifica generale:Il login del link ipertestuale è visibile.

Posizionamento CLUE: Per servire meglio la comprensione, i compiti e l'industria della lingua cinese, come complemento alla valutazione generale dei modelli linguistici, migliora l'infrastruttura raccogliendo, ordinando e pubblicando compiti cinesi e valutazioni standardizzate, e infine promuovendo lo sviluppo del NLP cinese.

Classifica Open LLM：Il login del link ipertestuale è visibile.

Confronta grandi modelli linguistici in modo aperto e ripetibile

Confronto tra benchmark di valutazione di grandi modelli e prestazioni：Il login del link ipertestuale è visibile.

Questa pagina mostra le prestazioni di molteplici modelli grandi e mainstream su vari benchmark di valutazione, inclusi MMLU, GSM8K, HumanEval e altri dataset standard. Aiutiamo sviluppatori e ricercatori a comprendere le prestazioni di diversi modelli di grandi dimensioni in vari compiti attraverso risultati di valutazione aggiornati in tempo reale. Gli utenti possono scegliere di confrontare modelli personalizzati con benchmark di valutazione per ottenere rapidamente vantaggi e svantaggi di diversi modelli in applicazioni pratiche.

Piccola feccia · Pubblicato su 28/12/2024 10:20:27

Qwen è una serie di grandi modelli linguistici e grandi modelli multimodali sviluppati dal team Qwen del gruppo Alibaba.
Qwen2.5：Il login del link ipertestuale è visibile.

DeepSeek-V3 è un modello MoE autosviluppato con parametri 671B, 37B attivato e pre-addestrato su token 14.8T.
DeepSeek-V3：Il login del link ipertestuale è visibile.

Zhipu è un'azienda trasformata dai risultati tecnologici del Dipartimento di Informatica dell'Università di Tsinghua
GLM-4-9B：Il login del link ipertestuale è visibile.

[AI] (1) Classifiche open source dei grandi modelli

Post correlati

Sezioni visualizzate