[AI] (1) Öppen källkod för rankningar av stora modeller

Lilla avskum · Publicerad på 2024-12-28 10:03:05

Chatbot Arena LLMLista:Inloggningen med hyperlänken är synlig.

Chatbot Arena är en öppen plattform för crowdsourcing av AI-benchmarking, utvecklad av forskare vid SkyLab och LMArena vid University of California, Berkeley. Med över 1 000 000 användarröster använder plattformen Bradley-Terry-modellen för att generera realtidstopplistor som rankar de bästa LLM:erna och AI-chattbotarna. För tekniska detaljer, kolla in vår artikel.

LiveBench：Inloggningen med hyperlänken är synlig.

Riktmärken designade specifikt för LLM:er, utformade med testuppsättningens kontaminering och objektiv utvärdering i åtanke.

SuperCLUEÖvergripande resultatlista:Inloggningen med hyperlänken är synlig.

CLUE-positionering: För att bättre tillgodose kinesisk språkförståelse, uppgifter och branschen, som ett komplement till allmän språkmodellutvärdering, förbättra infrastrukturen genom att samla in, sortera och publicera kinesiska uppgifter och standardiserade bedömningar, och i slutändan främja utvecklingen av kinesisk NLP.

Öppen LLM-topplista：Inloggningen med hyperlänken är synlig.

Jämför stora språkmodeller på ett öppet och repeterbart sätt

Jämförelse av benchmarks och prestanda för stora modeller：Inloggningen med hyperlänken är synlig.

Denna sida visar prestandan för flera stora mainstreammodeller på olika utvärderingsbenchmarks, inklusive MMLU, GSM8K, HumanEval och andra standarddataset. Vi hjälper utvecklare och forskare att förstå prestandan hos olika stora modeller i olika uppgifter genom realtidsuppdaterade utvärderingsresultat. Användare kan välja att jämföra anpassade modeller med utvärderingsbenchmarks för att snabbt få fram för- och nackdelar med olika modeller i praktiska tillämpningar.

Lilla avskum · Publicerad på 2024-12-28 10:20:27

Qwen är en serie stora språkmodeller och stora multimodala modeller utvecklade av Qwen-teamet i Alibaba Group.
Qwen2.5：Inloggningen med hyperlänken är synlig.

DeepSeek-V3 är en egenutvecklad MoE-modell med 671B parametrar, 37B aktiverade och förtränade på 14,8T-tokens.
DeepSeek-V3：Inloggningen med hyperlänken är synlig.

Zhipu är ett företag som har omvandlats från de teknologiska framstegen vid Institutionen för datavetenskap vid Tsinghua-universitetet
GLM-4-9B：Inloggningen med hyperlänken är synlig.

[AI] (1) Öppen källkod för rankningar av stora modeller

Relaterade inlägg

Avsnitt som ses