Chatbot Arena LLMLoend:Hüperlingi sisselogimine on nähtav.
Chatbot Arena on avatud platvorm AI võrdluste ühiskasutuseks, mille on välja töötanud SkyLabi ja LMArena teadlased California ülikoolist Berkeley's. Üle 1 000 000 kasutajahäälega kasutab platvorm Bradley-Terry mudelit, et genereerida reaalajas edetabeleid, mis hindavad parimaid LLM-e ja tehisintellekti vestlusroboteid. Tehniliste detailide jaoks vaata meie artiklit.
LiveBench:Hüperlingi sisselogimine on nähtav.
Võrdlusstandardid, mis on loodud spetsiaalselt LLM-ide jaoks, loodud katsekomplekti saastumise ja objektiivse hindamise silmas pidades.
SuperCLUEÜldine edetabel:Hüperlingi sisselogimine on nähtav.
CLUE positsioneerimine: Hiina keele mõistmise, ülesannete ja tööstuse paremaks teenindamiseks, kui üldise keelemudeli hindamise täiendamiseks, paranda infrastruktuuri hiina ülesannete ja standardiseeritud hindamiste kogumise, sorteerimise ja avaldamise kaudu ning lõpuks edendada hiina NLP arengut.
Open LLM edetabel:Hüperlingi sisselogimine on nähtav.
Võrdle suuri keelemudeleid avatud ja korduval viisil
Suurte mudelite hindamiskriteeriumide ja jõudluse võrdlus:Hüperlingi sisselogimine on nähtav.
See leht näitab mitme peavoolu suurmudeli jõudlust erinevatel hindamiskriteeriumidel, sealhulgas MMLU, GSM8K, HumanEval ja teised standardandmestikud. Aitame arendajatel ja uurijatel mõista erinevate suurte mudelite jõudlust erinevates ülesannetes reaalajas uuendatud hindamistulemuste kaudu. Kasutajad saavad valida kohandatud mudelite võrdlemise hindamistestidega, et kiiresti saada erinevate mudelite eeliseid ja puudusi praktilistes rakendustes.
|