[AI] (1) Open source ranglijsten van grote modellen

Klein tuig · Geplaatst op 28-12-2024 10:03:05

Chatbot Arena LLMLijst:De hyperlink-login is zichtbaar.

Chatbot Arena is een open platform voor crowdsourcing van AI-benchmarking, ontwikkeld door onderzoekers van SkyLab en LMArena aan de University of California, Berkeley. Met meer dan 1.000.000 gebruikersstemmen gebruikt het platform het Bradley-Terry-model om realtime leaderboards te genereren die de beste LLM's en AI-chatbots rangschikken. Voor technische details, bekijk ons artikel.

LiveBench：De hyperlink-login is zichtbaar.

Benchmarks die specifiek zijn ontworpen voor LLM's, ontworpen met testset-contaminatie en objectieve evaluatie in gedachten.

SuperCLUEAlgemeen Klassement:De hyperlink-login is zichtbaar.

CLUE-positionering: Om het Chinese taalbegrip, taken en de industrie beter te bedienen, als aanvulling op de evaluatie van algemene taalmodellen, de infrastructuur te verbeteren door Chinese taken en gestandaardiseerde beoordelingen te verzamelen, te sorteren en te publiceren, en uiteindelijk de ontwikkeling van Chinese NLP te bevorderen.

Open LLM Leaderboard：De hyperlink-login is zichtbaar.

Vergelijk grote taalmodellen op een open en herhaalbare manier

Vergelijking van benchmarks en prestaties voor grote modellen：De hyperlink-login is zichtbaar.

Deze pagina toont de prestaties van meerdere grote modellen op diverse evaluatiebenchmarks, waaronder MMLU, GSM8K, HumanEval en andere standaarddatasets. Wij helpen ontwikkelaars en onderzoekers de prestaties van verschillende grote modellen in diverse taken te begrijpen via realtime bijgewerkte evaluatieresultaten. Gebruikers kunnen ervoor kiezen om aangepaste modellen te vergelijken met evaluatiebenchmarks om snel de voor- en nadelen van verschillende modellen in praktische toepassingen te achterhalen.

Klein tuig · Geplaatst op 28-12-2024 10:20:27

Qwen is een reeks grote taalmodellen en grote multimodale modellen ontwikkeld door het Qwen-team van Alibaba Group.
Qwen2.5：De hyperlink-login is zichtbaar.

DeepSeek-V3 is een zelfontwikkeld MoE-model met 671B parameters, 37B geactiveerd en vooraf getraind op 14,8T-tokens.
DeepSeek-V3：De hyperlink-login is zichtbaar.

Zhipu is een bedrijf dat is getransformeerd uit de technologische prestaties van de afdeling Informatica van de Tsinghua Universiteit
GLM-4-9B：De hyperlink-login is zichtbaar.

[AI] (1) Open source ranglijsten van grote modellen

Gerelateerde berichten

Secties bekeken