Chatbot Arena LLMLista:Logowanie do linku jest widoczne.
Chatbot Arena to otwarta platforma do crowdsourcingu benchmarkingu AI, opracowana przez badaczy ze SkyLab i LMArena na Uniwersytecie Kalifornijskim w Berkeley. Platforma wykorzystuje model Bradley-Terry'ego z ponad 1 000 000 głosów, a platforma generuje rankingi w czasie rzeczywistym, które oceniają najlepsze LLM i chatboty AI. Szczegóły techniczne znajdziesz w naszym artykule.
LiveBench:Logowanie do linku jest widoczne.
Benchmarki zaprojektowane specjalnie dla LLM, zaprojektowane z myślą o zanieczyszczeniu zestawu testowego i obiektywnej ocenie.
SuperCLUEOgólna tabela wyników:Logowanie do linku jest widoczne.
Pozycjonowanie wskazówek: Aby lepiej służyć znajomości języka chińskiego, zadaniom i branży, jako uzupełnienie ogólnej oceny modeli językowych, poprawić infrastrukturę poprzez zbieranie, sortowanie i publikowanie zadań chińskich oraz standaryzowanych ocen, a ostatecznie promować rozwój chińskiego NLP.
Tabela wyników Open LLM:Logowanie do linku jest widoczne.
Porównaj duże modele językowe w sposób otwarty i powtarzalny
Porównanie benchmarków oceny dużych modeli i wyników:Logowanie do linku jest widoczne.
Ta strona pokazuje wyniki wielu dużych modeli mainstreamowych na różnych benchmarkach ewaluacji, w tym MMLU, GSM8K, HumanEval i innych standardowych zbiorach danych. Pomagamy deweloperom i badaczom zrozumieć wydajność różnych dużych modeli w różnych zadaniach poprzez aktualizowane wyniki oceny w czasie rzeczywistym. Użytkownicy mogą wybrać porównanie niestandardowych modeli z benchmarkami ewaluacyjnymi, aby szybko uzyskać zalety i wady różnych modeli w praktycznych zastosowaniach.
|