Chatbot Arena LLMListă:Autentificarea cu hyperlink este vizibilă.
Chatbot Arena este o platformă deschisă pentru crowdsourcing în benchmarking AI, dezvoltată de cercetători de la SkyLab și LMArena de la Universitatea din California, Berkeley. Cu peste 1.000.000 de voturi ale utilizatorilor, platforma folosește modelul Bradley-Terry pentru a genera clasamente în timp real care clasifică cei mai buni LLM-uri și chatbot-uri AI. Pentru detalii tehnice, consultați lucrarea noastră.
LiveBench:Autentificarea cu hyperlink este vizibilă.
Repere concepute special pentru LLM-uri, având în vedere contaminarea setului de teste și evaluarea obiectivă.
SuperCLUEClasament general:Autentificarea cu hyperlink este vizibilă.
Poziționarea CLUE: Pentru a servi mai bine înțelegerea limbii chineze, sarcinile și industria, ca supliment la evaluarea generală a modelelor lingvistice, îmbunătățiți infrastructura prin colectarea, sortarea și publicarea sarcinilor chinezești și evaluările standardizate și, în cele din urmă, promovarea dezvoltării NLP chineze.
Clasamentul Open LLM:Autentificarea cu hyperlink este vizibilă.
Compară modelele mari de limbaj într-un mod deschis și repetabil
Comparație între benchmark-urile de evaluare a modelelor mari și performanța:Autentificarea cu hyperlink este vizibilă.
Această pagină arată performanța mai multor modele mari mainstream pe diverse repere de evaluare, inclusiv MMLU, GSM8K, HumanEval și alte seturi de date standard. Ajutăm dezvoltatorii și cercetătorii să înțeleagă performanța diferitelor modele mari în diverse sarcini prin rezultate actualizate ale evaluărilor în timp real. Utilizatorii pot alege să compare modele personalizate cu benchmark-uri de evaluare pentru a obține rapid avantajele și dezavantajele diferitelor modele în aplicații practice.
|