[KI] (1) Open-Source-Rankings großer Modelle

Kleiner Abschaum · Veröffentlicht am 28.12.2024 10:03:05

Chatbot Arena LLMListe:Der Hyperlink-Login ist sichtbar.

Chatbot Arena ist eine offene Plattform zum Crowdsourcing von KI-Benchmarking, entwickelt von Forschern von SkyLab und LMArena an der University of California, Berkeley. Mit über 1.000.000 Nutzerstimmen nutzt die Plattform das Bradley-Terry-Modell, um Echtzeit-Bestenlisten zu erstellen, die die besten LLMs und KI-Chatbots bewerten. Für technische Details sehen Sie sich unseren Artikel an.

LiveBench：Der Hyperlink-Login ist sichtbar.

Benchmarks, die speziell für LLMs entwickelt wurden, mit Blick auf Testset-Kontamination und objektive Bewertung.

SuperCLUEGesamtrangliste:Der Hyperlink-Login ist sichtbar.

CLUE-Positionierung: Um das chinesische Sprachverständnis, die Aufgaben und die Branche besser zu unterstützen, verbessert man als Ergänzung zur allgemeinen Sprachmodellbewertung die Infrastruktur durch das Sammeln, Sortieren und Veröffentlichen chinesischer Aufgaben und standardisierter Bewertungen und fördert letztlich die Entwicklung des chinesischen NLP.

Offene LLM-Bestenliste：Der Hyperlink-Login ist sichtbar.

Vergleichen Sie große Sprachmodelle offen und wiederholbar

Vergleich großer Modellbewertungsbenchmarks und Leistung：Der Hyperlink-Login ist sichtbar.

Diese Seite zeigt die Leistung mehrerer gängiger großer Modelle auf verschiedenen Bewertungsbenchmarks, darunter MMLU, GSM8K, HumanEval und andere Standarddatensätze. Wir helfen Entwicklern und Forschern, die Leistung verschiedener großer Modelle in unterschiedlichen Aufgaben durch Echtzeit-aktualisierte Evaluationsergebnisse zu verstehen. Nutzer können individuelle Modelle mit Bewertungsbenchmarks vergleichen, um schnell die Vor- und Nachteile verschiedener Modelle in praktischen Anwendungen zu ermitteln.

Kleiner Abschaum · Veröffentlicht am 28.12.2024 10:20:27

Qwen ist eine Reihe großer Sprachmodelle und großer multimodaler Modelle, die vom Qwen-Team der Alibaba Group entwickelt wurden.
Qwen2.5：Der Hyperlink-Login ist sichtbar.

DeepSeek-V3 ist ein selbstentwickeltes MoE-Modell mit 671B Parametern, 37B aktiviert und auf 14,8T-Token vortrainiert.
DeepSeek-V3：Der Hyperlink-Login ist sichtbar.

Zhipu ist ein Unternehmen, das sich aus den technologischen Errungenschaften der Abteilung für Informatik der Tsinghua-Universität entwickelt hat
GLM-4-9B：Der Hyperlink-Login ist sichtbar.

[KI] (1) Open-Source-Rankings großer Modelle

Verwandte Beiträge

Betrachtete Abschnitte