[AI] (1) Clasamente open source pentru modele mari

Mică mizerie · Postat pe 28.12.2024 10:03:05

Chatbot Arena LLMListă:Autentificarea cu hyperlink este vizibilă.

Chatbot Arena este o platformă deschisă pentru crowdsourcing în benchmarking AI, dezvoltată de cercetători de la SkyLab și LMArena de la Universitatea din California, Berkeley. Cu peste 1.000.000 de voturi ale utilizatorilor, platforma folosește modelul Bradley-Terry pentru a genera clasamente în timp real care clasifică cei mai buni LLM-uri și chatbot-uri AI. Pentru detalii tehnice, consultați lucrarea noastră.

LiveBench：Autentificarea cu hyperlink este vizibilă.

Repere concepute special pentru LLM-uri, având în vedere contaminarea setului de teste și evaluarea obiectivă.

SuperCLUEClasament general:Autentificarea cu hyperlink este vizibilă.

Poziționarea CLUE: Pentru a servi mai bine înțelegerea limbii chineze, sarcinile și industria, ca supliment la evaluarea generală a modelelor lingvistice, îmbunătățiți infrastructura prin colectarea, sortarea și publicarea sarcinilor chinezești și evaluările standardizate și, în cele din urmă, promovarea dezvoltării NLP chineze.

Clasamentul Open LLM：Autentificarea cu hyperlink este vizibilă.

Compară modelele mari de limbaj într-un mod deschis și repetabil

Comparație între benchmark-urile de evaluare a modelelor mari și performanța：Autentificarea cu hyperlink este vizibilă.

Această pagină arată performanța mai multor modele mari mainstream pe diverse repere de evaluare, inclusiv MMLU, GSM8K, HumanEval și alte seturi de date standard. Ajutăm dezvoltatorii și cercetătorii să înțeleagă performanța diferitelor modele mari în diverse sarcini prin rezultate actualizate ale evaluărilor în timp real. Utilizatorii pot alege să compare modele personalizate cu benchmark-uri de evaluare pentru a obține rapid avantajele și dezavantajele diferitelor modele în aplicații practice.

Mică mizerie · Postat pe 28.12.2024 10:20:27

Qwen este o serie de modele lingvistice mari și modele multimodale mari dezvoltate de echipa Qwen a Grupului Alibaba.
Qwen2.5：Autentificarea cu hyperlink este vizibilă.

DeepSeek-V3 este un model MoE dezvoltat de el cu parametri 671B, 37B activat și pre-antrenat pe tokenuri 14.8T.
DeepSeek-V3：Autentificarea cu hyperlink este vizibilă.

Zhipu este o companie transformată din realizările tehnologice ale Departamentului de Informatică al Universității Tsinghua
GLM-4-9B：Autentificarea cu hyperlink este vizibilă.

[AI] (1) Clasamente open source pentru modele mari

Postări conexe

Secțiuni vizualizate