[AI] (1) Open source žebříčky velkých modelů

Malý hajzl · Zveřejněno 28.12.2024 10:03:05

Chatbot Arena LLMSeznam:Přihlášení k hypertextovému odkazu je viditelné.

Chatbot Arena je otevřená platforma pro crowdsourcing AI benchmarkingu, vyvinutá výzkumníky ze SkyLab a LMArena na University of California, Berkeley. Platforma využívá model Bradley-Terry s více než 1 000 000 hlasy a vytváří žebříčky v reálném čase, které hodnotí nejlepší LLM a AI chatboty. Technické podrobnosti najdete v našem článku.

LiveBench：Přihlášení k hypertextovému odkazu je viditelné.

Benchmarky navržené speciálně pro LLM, navržené s ohledem na kontaminaci testovacích sad a objektivní hodnocení.

SuperCLUECelkové žebříčko:Přihlášení k hypertextovému odkazu je viditelné.

Umístění nápovědy: Aby lépe sloužily porozumění čínskému jazyku, úkolům a průmyslu, jako doplněk k obecnému hodnocení jazykových modelů zlepšit infrastrukturu sběrem, tříděním a publikováním čínských úkolů a standardizovaných hodnocení a nakonec podpořit rozvoj čínského NLP.

Open LLM žebříček：Přihlášení k hypertextovému odkazu je viditelné.

Porovnávání velkých jazykových modelů otevřeným a opakovatelným způsobem

Srovnání benchmarků a výkonu velkých modelových hodnotících hodnot：Přihlášení k hypertextovému odkazu je viditelné.

Tato stránka ukazuje výkon několika hlavních velkých modelů na různých hodnotících benchmarkech, včetně MMLU, GSM8K, HumanEval a dalších standardních datových sad. Pomáháme vývojářům a výzkumníkům pochopit výkon různých velkých modelů v různých úkolech prostřednictvím aktuálních výsledků hodnocení v reálném čase. Uživatelé si mohou zvolit porovnání vlastních modelů s hodnotícími benchmarky, aby rychle získali výhody a nevýhody různých modelů v praktických aplikacích.

Malý hajzl · Zveřejněno 28.12.2024 10:20:27

Qwen je série velkých jazykových modelů a velkých multimodálních modelů vyvinutých týmem Qwen ze skupiny Alibaba.
Qwen2.5：Přihlášení k hypertextovému odkazu je viditelné.

DeepSeek-V3 je vlastní model MoE s parametry 671B, aktivovaným 37B a předtrénovaným na tokenech 14.8T.
DeepSeek-V3：Přihlášení k hypertextovému odkazu je viditelné.

Zhipu je společnost transformovaná technologickými úspěchy Katedry informatiky Univerzity Tsinghua
GLM-4-9B：Přihlášení k hypertextovému odkazu je viditelné.

[AI] (1) Open source žebříčky velkých modelů

Související příspěvky

Prohlížené sekce