[AI] (1) Rankingi dużych modeli open source

Mały śmiecie · Opublikowano 28.12.2024 10:03:05

Chatbot Arena LLMLista:Logowanie do linku jest widoczne.

Chatbot Arena to otwarta platforma do crowdsourcingu benchmarkingu AI, opracowana przez badaczy ze SkyLab i LMArena na Uniwersytecie Kalifornijskim w Berkeley. Platforma wykorzystuje model Bradley-Terry'ego z ponad 1 000 000 głosów, a platforma generuje rankingi w czasie rzeczywistym, które oceniają najlepsze LLM i chatboty AI. Szczegóły techniczne znajdziesz w naszym artykule.

LiveBench：Logowanie do linku jest widoczne.

Benchmarki zaprojektowane specjalnie dla LLM, zaprojektowane z myślą o zanieczyszczeniu zestawu testowego i obiektywnej ocenie.

SuperCLUEOgólna tabela wyników:Logowanie do linku jest widoczne.

Pozycjonowanie wskazówek: Aby lepiej służyć znajomości języka chińskiego, zadaniom i branży, jako uzupełnienie ogólnej oceny modeli językowych, poprawić infrastrukturę poprzez zbieranie, sortowanie i publikowanie zadań chińskich oraz standaryzowanych ocen, a ostatecznie promować rozwój chińskiego NLP.

Tabela wyników Open LLM：Logowanie do linku jest widoczne.

Porównaj duże modele językowe w sposób otwarty i powtarzalny

Porównanie benchmarków oceny dużych modeli i wyników：Logowanie do linku jest widoczne.

Ta strona pokazuje wyniki wielu dużych modeli mainstreamowych na różnych benchmarkach ewaluacji, w tym MMLU, GSM8K, HumanEval i innych standardowych zbiorach danych. Pomagamy deweloperom i badaczom zrozumieć wydajność różnych dużych modeli w różnych zadaniach poprzez aktualizowane wyniki oceny w czasie rzeczywistym. Użytkownicy mogą wybrać porównanie niestandardowych modeli z benchmarkami ewaluacyjnymi, aby szybko uzyskać zalety i wady różnych modeli w praktycznych zastosowaniach.

Mały śmiecie · Opublikowano 28.12.2024 10:20:27

Qwen to seria dużych modeli językowych i dużych modeli multimodalnych opracowanych przez zespół Qwen z Alibaba Group.
Qwen2.5：Logowanie do linku jest widoczne.

DeepSeek-V3 to samodzielnie opracowany model MoE z parametrami 671B, 37B aktywowanym i wstępnie wytrenowanym na tokenach 14.8T.
DeepSeek-V3：Logowanie do linku jest widoczne.

Zhipu to firma powstała dzięki osiągnięciom technologicznym Wydziału Informatyki Uniwersytetu Tsinghua
GLM-4-9B：Logowanie do linku jest widoczne.

[AI] (1) Rankingi dużych modeli open source

Powiązane wpisy

Oglądane sekcje