Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 1600|Svare: 1

[AI] (1) Åpen kildekode-rangeringer av store modeller

[Kopier lenke]
Publisert 28.12.2024 10:03:05 | | | |
Chatbot Arena LLMListe:Innloggingen med hyperkoblingen er synlig.

Chatbot Arena er en åpen plattform for crowdsourcing av AI-benchmarking, utviklet av forskere ved SkyLab og LMArena ved University of California, Berkeley. Med over 1 000 000 brukerstemmer bruker plattformen Bradley-Terry-modellen for å generere sanntids topplister som rangerer de beste LLM-ene og AI-chatbotene. For tekniske detaljer, sjekk ut artikkelen vår.



LiveBenchInnloggingen med hyperkoblingen er synlig.

Benchmarks designet spesielt for LLM-er, utformet med testforurensning og objektiv evaluering i tankene.



SuperCLUESammenlagt ledertavle:Innloggingen med hyperkoblingen er synlig.

CLUE-posisjonering: For å bedre tjene kinesisk språkforståelse, oppgaver og bransjen, som et supplement til generell språkmodellevaluering, forbedre infrastrukturen ved å samle inn, sortere og publisere kinesiske oppgaver og standardiserte vurderinger, og til slutt fremme utviklingen av kinesisk NLP.



Åpen LLM-ledertavleInnloggingen med hyperkoblingen er synlig.

Sammenlign store språkmodeller på en åpen og repeterbar måte



Sammenligning av benchmarks for evaluering av store modeller og ytelseInnloggingen med hyperkoblingen er synlig.

Denne siden viser ytelsen til flere store hovedstrømsmodeller på ulike evalueringsbenchmarks, inkludert MMLU, GSM8K, HumanEval og andre standarddatasett. Vi hjelper utviklere og forskere med å forstå ytelsen til ulike store modeller i ulike oppgaver gjennom sanntidsoppdaterte evalueringsresultater. Brukere kan velge å sammenligne tilpassede modeller med evalueringsbenchmarks for raskt å få fordeler og ulemper ved ulike modeller i praktiske applikasjoner.





Foregående:Kopier blob-bildet til utklippstavlen
Neste:Fjerning av vinkler Zone.js utforsk nye løsninger uten soner
 Vert| Publisert 2024-12-28 10:20:27 |
Qwen er en serie store språkmodeller og store multimodale modeller utviklet av Qwen-teamet i Alibaba Group.
Qwen2.5Innloggingen med hyperkoblingen er synlig.

DeepSeek-V3 er en egenutviklet MoE-modell med 671B parametere, 37B aktivert, og forhåndstrent på 14,8T-tokens.
DeepSeek-V3Innloggingen med hyperkoblingen er synlig.

Zhipu er et selskap som er forvandlet fra teknologiske prestasjoner ved Institutt for informatikk ved Tsinghua universitet
GLM-4-9BInnloggingen med hyperkoblingen er synlig.

Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com