[AI] (1) Avoimen lähdekoodin suurten mallien rankingit

Pikku roisto · Julkaistu 28.12.2024 10.03.05

Chatbot Arena LLMLista:Hyperlinkin kirjautuminen on näkyvissä.

Chatbot Arena on avoin alusta tekoälyn vertailujen joukkoistamiseen, jonka ovat kehittäneet SkyLabin ja LMArenan tutkijat Kalifornian yliopistossa Berkeleyssä. Yli 1 000 000 käyttäjääänellä alusta käyttää Bradley-Terry-mallia luodakseen reaaliaikaisia tulostauluja, jotka rankkaavat parhaat LLM:t ja tekoälychatbotit. Teknisiä tietoja löydät artikkelistamme.

LiveBench：Hyperlinkin kirjautuminen on näkyvissä.

Vertailuarvot, jotka on suunniteltu erityisesti LLM-malleille, suunniteltu testisarjan saastumista ja objektiivista arviointia silmällä pitäen.

SuperVIHJEKokonaistulostaulu:Hyperlinkin kirjautuminen on näkyvissä.

VIHJEIDEN sijoittaminen: Kiinan kielen ymmärryksen, tehtävien ja teollisuuden parantamiseksi, yleisen kielimallin arvioinnin täydentämiseksi, infrastruktuurin parantamiseksi keräämällä, lajittelemalla ja julkaisemalla kiinalaisia tehtäviä ja standardoituja arviointeja, ja lopulta edistämällä kiinalaisen NLP:n kehitystä.

Open LLM -tulostaulukko：Hyperlinkin kirjautuminen on näkyvissä.

Vertaa suuria kielimalleja avoimesti ja toistettavalla tavalla

Suurten mallien arviointikriteerien ja suorituskyvyn vertailu：Hyperlinkin kirjautuminen on näkyvissä.

Tämä sivu näyttää useiden valtavirran suurten mallien suorituskyvyn erilaisissa arviointivertailuissa, mukaan lukien MMLU, GSM8K, HumanEval ja muut standardiaineistot. Autamme kehittäjiä ja tutkijoita ymmärtämään eri suurten mallien suorituskykyä eri tehtävissä reaaliaikaisesti päivitettyjen arviointitulosten avulla. Käyttäjät voivat verrata räätälöityjä malleja arviointivertailuihin saadakseen nopeasti eri mallien hyödyt ja haitat käytännön sovelluksissa.

Pikku roisto · Julkaistu 28.12.2024 10.20.27

Qwen on sarja suuria kielimalleja ja suuria multimodaalisia malleja, jotka on kehittänyt Alibaba Groupin Qwen-tiimi.
Qwen2.5：Hyperlinkin kirjautuminen on näkyvissä.

DeepSeek-V3 on itse kehittämä MoE-malli, jossa on 671B parametrit, 37B aktivoitu ja esikoulutettu 14,8T tokeneilla.
DeepSeek-V3：Hyperlinkin kirjautuminen on näkyvissä.

Zhipu on yritys, joka on muuttunut Tsinghuan yliopiston tietojenkäsittelytieteen laitoksen teknologisista saavutuksista
GLM-4-9B：Hyperlinkin kirjautuminen on näkyvissä.

[AI] (1) Avoimen lähdekoodin suurten mallien rankingit

Aiheeseen liittyvät julkaisut

Katsotut osuudet