Chatbot Arena LLMListe:Der Hyperlink-Login ist sichtbar.
Chatbot Arena ist eine offene Plattform zum Crowdsourcing von KI-Benchmarking, entwickelt von Forschern von SkyLab und LMArena an der University of California, Berkeley. Mit über 1.000.000 Nutzerstimmen nutzt die Plattform das Bradley-Terry-Modell, um Echtzeit-Bestenlisten zu erstellen, die die besten LLMs und KI-Chatbots bewerten. Für technische Details sehen Sie sich unseren Artikel an.
LiveBench:Der Hyperlink-Login ist sichtbar.
Benchmarks, die speziell für LLMs entwickelt wurden, mit Blick auf Testset-Kontamination und objektive Bewertung.
SuperCLUEGesamtrangliste:Der Hyperlink-Login ist sichtbar.
CLUE-Positionierung: Um das chinesische Sprachverständnis, die Aufgaben und die Branche besser zu unterstützen, verbessert man als Ergänzung zur allgemeinen Sprachmodellbewertung die Infrastruktur durch das Sammeln, Sortieren und Veröffentlichen chinesischer Aufgaben und standardisierter Bewertungen und fördert letztlich die Entwicklung des chinesischen NLP.
Offene LLM-Bestenliste:Der Hyperlink-Login ist sichtbar.
Vergleichen Sie große Sprachmodelle offen und wiederholbar
Vergleich großer Modellbewertungsbenchmarks und Leistung:Der Hyperlink-Login ist sichtbar.
Diese Seite zeigt die Leistung mehrerer gängiger großer Modelle auf verschiedenen Bewertungsbenchmarks, darunter MMLU, GSM8K, HumanEval und andere Standarddatensätze. Wir helfen Entwicklern und Forschern, die Leistung verschiedener großer Modelle in unterschiedlichen Aufgaben durch Echtzeit-aktualisierte Evaluationsergebnisse zu verstehen. Nutzer können individuelle Modelle mit Bewertungsbenchmarks vergleichen, um schnell die Vor- und Nachteile verschiedener Modelle in praktischen Anwendungen zu ermitteln.
|