[AI] (1) Open source rangeringer af store modeller

Lille skarn · Opslået på 28/12/2024 10.03.05

Chatbot Arena LLMListe:Hyperlink-login er synlig.

Chatbot Arena er en åben platform til crowdsourcing af AI-benchmarking, udviklet af forskere ved SkyLab og LMArena ved University of California, Berkeley. Med over 1.000.000 brugerstemmer bruger platformen Bradley-Terry-modellen til at generere realtids-leaderboards, der rangerer de bedste LLM'er og AI-chatbots. For tekniske detaljer, se vores artikel.

LiveBench：Hyperlink-login er synlig.

Benchmarks designet specifikt til LLM'er, designet med testsætforurening og objektiv evaluering for øje.

SuperCLUESamlet resultatliste:Hyperlink-login er synlig.

CLUE-positionering: For bedre at kunne tjene kinesisk sprogforståelse, opgaver og industrien, som supplement til generel sprogmodelevaluering, forbedre infrastrukturen ved at indsamle, sortere og offentliggøre kinesiske opgaver og standardiserede vurderinger, og i sidste ende fremme udviklingen af kinesisk NLP.

Åben LLM Leaderboard：Hyperlink-login er synlig.

Sammenlign store sprogmodeller på en åben og gentagelig måde

Sammenligning af benchmarks for evaluering af store modeller og ydeevne：Hyperlink-login er synlig.

Denne side viser ydeevnen for flere store mainstream-modeller på forskellige evalueringsbenchmarks, herunder MMLU, GSM8K, HumanEval og andre standarddatasæt. Vi hjælper udviklere og forskere med at forstå ydeevnen af forskellige store modeller i forskellige opgaver gennem opdaterede evalueringsresultater i realtid. Brugere kan vælge at sammenligne brugerdefinerede modeller med evalueringsbenchmarks for hurtigt at få fordele og ulemper ved forskellige modeller i praktiske anvendelser.

Lille skarn · Opslået på 28/12/2024 10.20.27

Qwen er en serie af store sprogmodeller og store multimodale modeller udviklet af Qwen-teamet i Alibaba Group.
Qwen2.5：Hyperlink-login er synlig.

DeepSeek-V3 er en selvudviklet MoE-model med 671B parametre, 37B aktiveret og forudtrænet på 14,8T tokens.
DeepSeek-V3：Hyperlink-login er synlig.

Zhipu er en virksomhed, der er transformeret ud fra de teknologiske resultater fra Institut for Datalogi ved Tsinghua Universitet
GLM-4-9B：Hyperlink-login er synlig.

[AI] (1) Open source rangeringer af store modeller

Relaterede indlæg

Afsnit set