Čatbots Arēna LLMSaraksts:Hipersaites pieteikšanās ir redzama.
Chatbot Arena ir atvērta platforma pūļa resursu AI salīdzinošajai novērtēšanai, ko izstrādājuši SkyLab un LMArena pētnieki Kalifornijas universitātē Bērklijā. Ar vairāk nekā 1 000 000 lietotāju balsīm platforma izmanto Bredlija-Terija modeli, lai izveidotu reāllaika līderu sarakstus, kuros tiek vērtēti labākie LLM un AI tērzēšanas roboti. Lai iegūtu tehnisku informāciju, skatiet mūsu dokumentu.
LiveBench:Hipersaites pieteikšanās ir redzama.
Etaloni, kas īpaši izstrādāti LLM, izstrādāti, ņemot vērā testa kopas piesārņojumu un objektīvu novērtējumu.
SuperCLUEKopējais līderu saraksts:Hipersaites pieteikšanās ir redzama.
CLUE pozicionēšana: Lai labāk kalpotu ķīniešu valodas izpratnei, uzdevumiem un nozarei, kā papildinājumu vispārējai valodas modeļa novērtēšanai, uzlabot infrastruktūru, apkopojot, šķirojot un publicējot ķīniešu uzdevumus un standartizētus novērtējumus, un galu galā veicināt ķīniešu NLP attīstību.
Atvērt LLM līderu sarakstu:Hipersaites pieteikšanās ir redzama.
Salīdziniet lielus valodu modeļus atklātā un atkārtojamā veidā
Lielo modeļu novērtēšanas kritēriju un veiktspējas salīdzinājums:Hipersaites pieteikšanās ir redzama.
Šajā lapā ir parādīta vairāku galveno lielo modeļu veiktspēja dažādos novērtēšanas etalonos, tostarp MMLU, GSM8K, HumanEval un citās standarta datu kopās. Mēs palīdzam izstrādātājiem un pētniekiem izprast dažādu lielu modeļu veiktspēju dažādos uzdevumos, izmantojot reāllaika atjauninātus novērtēšanas rezultātus. Lietotāji var izvēlēties salīdzināt pielāgotus modeļus ar novērtēšanas etaloniem, lai ātri iegūtu dažādu modeļu priekšrocības un trūkumus praktiskos pielietojumos.
|