Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 1600|Odpoveď: 1

[AI] (1) Open source rebríčky veľkých modelov

[Kopírovať odkaz]
Zverejnené 2024-12-28 10:03:05 | | | |
Chatbot Arena LLMZoznam:Prihlásenie na hypertextový odkaz je viditeľné.

Chatbot Arena je otvorená platforma na crowdsourcing AI benchmarkingu, vyvinutá výskumníkmi zo SkyLab a LMArena na University of California, Berkeley. S viac ako 1 000 000 hlasmi používateľov platforma využíva model Bradley-Terry na generovanie rebríčkov v reálnom čase, ktoré hodnotia najlepšie LLM a AI chatboty. Pre technické detaily si pozrite náš článok.



LiveBenchPrihlásenie na hypertextový odkaz je viditeľné.

Benchmarky navrhnuté špeciálne pre LLM, navrhnuté s ohľadom na kontamináciu testovacích súborov a objektívne hodnotenie.



SuperCLUECelkové rebríček:Prihlásenie na hypertextový odkaz je viditeľné.

Umiestnenie nápovedy: Aby lepšie slúžilo porozumeniu čínskeho jazyka, úlohám a priemyslu, ako doplnok k všeobecnému hodnoteniu jazykových modelov zlepšiť infraštruktúru zhromažďovaním, triedením a publikovaním čínskych úloh a štandardizovaných hodnotení, a nakoniec podporiť rozvoj čínskeho NLP.



Open LLM rebríčekPrihlásenie na hypertextový odkaz je viditeľné.

Porovnávajte veľké jazykové modely otvoreným a opakovateľným spôsobom



Porovnanie benchmarkov hodnotenia veľkých modelov a výkonnostiPrihlásenie na hypertextový odkaz je viditeľné.

Táto stránka ukazuje výkonnosť viacerých hlavných veľkých modelov na rôznych hodnotiacich benchmarkoch, vrátane MMLU, GSM8K, HumanEval a ďalších štandardných dátových súborov. Pomáhame vývojárom a výskumníkom pochopiť výkon rôznych veľkých modelov v rôznych úlohách prostredníctvom aktuálnych hodnotiacich výsledkov v reálnom čase. Používatelia si môžu zvoliť porovnanie vlastných modelov s hodnotiacimi benchmarkmi, aby rýchlo získali výhody a nevýhody rôznych modelov v praktických aplikáciách.





Predchádzajúci:Skopírujte obrázok blobu do klipbordu
Budúci:Odstránenie uhlov Zone.js Preskúmajte nové bezzónové riešenia
 Prenajímateľ| Zverejnené 2024-12-28 10:20:27 |
Qwen je séria veľkých jazykových modelov a veľkých multimodálnych modelov vyvinutých tímom Qwen zo skupiny Alibaba.
Qwen2.5Prihlásenie na hypertextový odkaz je viditeľné.

DeepSeek-V3 je vlastnoručne vyvinutý model MoE s parametrami 671B, aktivovaným 37B a predtrénovaným na 14,8T tokenoch.
DeepSeek-V3Prihlásenie na hypertextový odkaz je viditeľné.

Zhipu je spoločnosť, ktorá vznikla z technologických úspechov Katedry informatiky Univerzity Tsinghua
GLM-4-9BPrihlásenie na hypertextový odkaz je viditeľné.

Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com