Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 1600|Odpověď: 1

[AI] (1) Open source žebříčky velkých modelů

[Kopírovat odkaz]
Zveřejněno 2024-12-28 10:03:05 | | | |
Chatbot Arena LLMSeznam:Přihlášení k hypertextovému odkazu je viditelné.

Chatbot Arena je otevřená platforma pro crowdsourcing AI benchmarkingu, vyvinutá výzkumníky ze SkyLab a LMArena na University of California, Berkeley. Platforma využívá model Bradley-Terry s více než 1 000 000 hlasy a vytváří žebříčky v reálném čase, které hodnotí nejlepší LLM a AI chatboty. Technické podrobnosti najdete v našem článku.



LiveBenchPřihlášení k hypertextovému odkazu je viditelné.

Benchmarky navržené speciálně pro LLM, navržené s ohledem na kontaminaci testovacích sad a objektivní hodnocení.



SuperCLUECelkové žebříčko:Přihlášení k hypertextovému odkazu je viditelné.

Umístění nápovědy: Aby lépe sloužily porozumění čínskému jazyku, úkolům a průmyslu, jako doplněk k obecnému hodnocení jazykových modelů zlepšit infrastrukturu sběrem, tříděním a publikováním čínských úkolů a standardizovaných hodnocení a nakonec podpořit rozvoj čínského NLP.



Open LLM žebříčekPřihlášení k hypertextovému odkazu je viditelné.

Porovnávání velkých jazykových modelů otevřeným a opakovatelným způsobem



Srovnání benchmarků a výkonu velkých modelových hodnotících hodnotPřihlášení k hypertextovému odkazu je viditelné.

Tato stránka ukazuje výkon několika hlavních velkých modelů na různých hodnotících benchmarkech, včetně MMLU, GSM8K, HumanEval a dalších standardních datových sad. Pomáháme vývojářům a výzkumníkům pochopit výkon různých velkých modelů v různých úkolech prostřednictvím aktuálních výsledků hodnocení v reálném čase. Uživatelé si mohou zvolit porovnání vlastních modelů s hodnotícími benchmarky, aby rychle získali výhody a nevýhody různých modelů v praktických aplikacích.





Předchozí:Zkopírujte obrázek blob do schránky
Další:Odstranění úhlů Zone.js Objevte nová bezzónová řešení
 Pronajímatel| Zveřejněno 2024-12-28 10:20:27 |
Qwen je série velkých jazykových modelů a velkých multimodálních modelů vyvinutých týmem Qwen ze skupiny Alibaba.
Qwen2.5Přihlášení k hypertextovému odkazu je viditelné.

DeepSeek-V3 je vlastní model MoE s parametry 671B, aktivovaným 37B a předtrénovaným na tokenech 14.8T.
DeepSeek-V3Přihlášení k hypertextovému odkazu je viditelné.

Zhipu je společnost transformovaná technologickými úspěchy Katedry informatiky Univerzity Tsinghua
GLM-4-9BPřihlášení k hypertextovému odkazu je viditelné.

Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com