Chatbot Arena LLMListe:Hyperlink-login er synlig.
Chatbot Arena er en åben platform til crowdsourcing af AI-benchmarking, udviklet af forskere ved SkyLab og LMArena ved University of California, Berkeley. Med over 1.000.000 brugerstemmer bruger platformen Bradley-Terry-modellen til at generere realtids-leaderboards, der rangerer de bedste LLM'er og AI-chatbots. For tekniske detaljer, se vores artikel.
LiveBench:Hyperlink-login er synlig.
Benchmarks designet specifikt til LLM'er, designet med testsætforurening og objektiv evaluering for øje.
SuperCLUESamlet resultatliste:Hyperlink-login er synlig.
CLUE-positionering: For bedre at kunne tjene kinesisk sprogforståelse, opgaver og industrien, som supplement til generel sprogmodelevaluering, forbedre infrastrukturen ved at indsamle, sortere og offentliggøre kinesiske opgaver og standardiserede vurderinger, og i sidste ende fremme udviklingen af kinesisk NLP.
Åben LLM Leaderboard:Hyperlink-login er synlig.
Sammenlign store sprogmodeller på en åben og gentagelig måde
Sammenligning af benchmarks for evaluering af store modeller og ydeevne:Hyperlink-login er synlig.
Denne side viser ydeevnen for flere store mainstream-modeller på forskellige evalueringsbenchmarks, herunder MMLU, GSM8K, HumanEval og andre standarddatasæt. Vi hjælper udviklere og forskere med at forstå ydeevnen af forskellige store modeller i forskellige opgaver gennem opdaterede evalueringsresultater i realtid. Brugere kan vælge at sammenligne brugerdefinerede modeller med evalueringsbenchmarks for hurtigt at få fordele og ulemper ved forskellige modeller i praktiske anvendelser.
|