[AI] (1) Åpen kildekode-rangeringer av store modeller

Lille skurk · Publisert på 28.12.2024 10:03:05

Chatbot Arena LLMListe:Innloggingen med hyperkoblingen er synlig.

Chatbot Arena er en åpen plattform for crowdsourcing av AI-benchmarking, utviklet av forskere ved SkyLab og LMArena ved University of California, Berkeley. Med over 1 000 000 brukerstemmer bruker plattformen Bradley-Terry-modellen for å generere sanntids topplister som rangerer de beste LLM-ene og AI-chatbotene. For tekniske detaljer, sjekk ut artikkelen vår.

LiveBench：Innloggingen med hyperkoblingen er synlig.

Benchmarks designet spesielt for LLM-er, utformet med testforurensning og objektiv evaluering i tankene.

SuperCLUESammenlagt ledertavle:Innloggingen med hyperkoblingen er synlig.

CLUE-posisjonering: For å bedre tjene kinesisk språkforståelse, oppgaver og bransjen, som et supplement til generell språkmodellevaluering, forbedre infrastrukturen ved å samle inn, sortere og publisere kinesiske oppgaver og standardiserte vurderinger, og til slutt fremme utviklingen av kinesisk NLP.

Åpen LLM-ledertavle：Innloggingen med hyperkoblingen er synlig.

Sammenlign store språkmodeller på en åpen og repeterbar måte

Sammenligning av benchmarks for evaluering av store modeller og ytelse：Innloggingen med hyperkoblingen er synlig.

Denne siden viser ytelsen til flere store hovedstrømsmodeller på ulike evalueringsbenchmarks, inkludert MMLU, GSM8K, HumanEval og andre standarddatasett. Vi hjelper utviklere og forskere med å forstå ytelsen til ulike store modeller i ulike oppgaver gjennom sanntidsoppdaterte evalueringsresultater. Brukere kan velge å sammenligne tilpassede modeller med evalueringsbenchmarks for raskt å få fordeler og ulemper ved ulike modeller i praktiske applikasjoner.

Lille skurk · Publisert på 28.12.2024 10:20:27

Qwen er en serie store språkmodeller og store multimodale modeller utviklet av Qwen-teamet i Alibaba Group.
Qwen2.5：Innloggingen med hyperkoblingen er synlig.

DeepSeek-V3 er en egenutviklet MoE-modell med 671B parametere, 37B aktivert, og forhåndstrent på 14,8T-tokens.
DeepSeek-V3：Innloggingen med hyperkoblingen er synlig.

Zhipu er et selskap som er forvandlet fra teknologiske prestasjoner ved Institutt for informatikk ved Tsinghua universitet
GLM-4-9B：Innloggingen med hyperkoblingen er synlig.

[AI] (1) Åpen kildekode-rangeringer av store modeller

Relaterte innlegg

Seksjoner sett