Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 1600|Svar: 1

[AI] (1) Öppen källkod för rankningar av stora modeller

[Kopiera länk]
Publicerad den 28 december 2024 10:03:05 | | | |
Chatbot Arena LLMLista:Inloggningen med hyperlänken är synlig.

Chatbot Arena är en öppen plattform för crowdsourcing av AI-benchmarking, utvecklad av forskare vid SkyLab och LMArena vid University of California, Berkeley. Med över 1 000 000 användarröster använder plattformen Bradley-Terry-modellen för att generera realtidstopplistor som rankar de bästa LLM:erna och AI-chattbotarna. För tekniska detaljer, kolla in vår artikel.



LiveBenchInloggningen med hyperlänken är synlig.

Riktmärken designade specifikt för LLM:er, utformade med testuppsättningens kontaminering och objektiv utvärdering i åtanke.



SuperCLUEÖvergripande resultatlista:Inloggningen med hyperlänken är synlig.

CLUE-positionering: För att bättre tillgodose kinesisk språkförståelse, uppgifter och branschen, som ett komplement till allmän språkmodellutvärdering, förbättra infrastrukturen genom att samla in, sortera och publicera kinesiska uppgifter och standardiserade bedömningar, och i slutändan främja utvecklingen av kinesisk NLP.



Öppen LLM-topplistaInloggningen med hyperlänken är synlig.

Jämför stora språkmodeller på ett öppet och repeterbart sätt



Jämförelse av benchmarks och prestanda för stora modellerInloggningen med hyperlänken är synlig.

Denna sida visar prestandan för flera stora mainstreammodeller på olika utvärderingsbenchmarks, inklusive MMLU, GSM8K, HumanEval och andra standarddataset. Vi hjälper utvecklare och forskare att förstå prestandan hos olika stora modeller i olika uppgifter genom realtidsuppdaterade utvärderingsresultat. Användare kan välja att jämföra anpassade modeller med utvärderingsbenchmarks för att snabbt få fram för- och nackdelar med olika modeller i praktiska tillämpningar.





Föregående:Kopiera blobbilden till urklippstavlan
Nästa:Vinkelborttagning Zone.js utforska nya lösningar för zonlösa
 Hyresvärd| Publicerad den 28 december 2024 10:20:27 |
Qwen är en serie stora språkmodeller och stora multimodala modeller utvecklade av Qwen-teamet i Alibaba Group.
Qwen2.5Inloggningen med hyperlänken är synlig.

DeepSeek-V3 är en egenutvecklad MoE-modell med 671B parametrar, 37B aktiverade och förtränade på 14,8T-tokens.
DeepSeek-V3Inloggningen med hyperlänken är synlig.

Zhipu är ett företag som har omvandlats från de teknologiska framstegen vid Institutionen för datavetenskap vid Tsinghua-universitetet
GLM-4-9BInloggningen med hyperlänken är synlig.

Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com