Acest articol este un articol oglindă al traducerii automate, vă rugăm să faceți clic aici pentru a sări la articolul original.

Vedere: 1600|Răspunde: 1

[AI] (1) Clasamente open source pentru modele mari

[Copiază linkul]
Postat la 28-12-2024 10:03:05 | | | |
Chatbot Arena LLMListă:Autentificarea cu hyperlink este vizibilă.

Chatbot Arena este o platformă deschisă pentru crowdsourcing în benchmarking AI, dezvoltată de cercetători de la SkyLab și LMArena de la Universitatea din California, Berkeley. Cu peste 1.000.000 de voturi ale utilizatorilor, platforma folosește modelul Bradley-Terry pentru a genera clasamente în timp real care clasifică cei mai buni LLM-uri și chatbot-uri AI. Pentru detalii tehnice, consultați lucrarea noastră.



LiveBenchAutentificarea cu hyperlink este vizibilă.

Repere concepute special pentru LLM-uri, având în vedere contaminarea setului de teste și evaluarea obiectivă.



SuperCLUEClasament general:Autentificarea cu hyperlink este vizibilă.

Poziționarea CLUE: Pentru a servi mai bine înțelegerea limbii chineze, sarcinile și industria, ca supliment la evaluarea generală a modelelor lingvistice, îmbunătățiți infrastructura prin colectarea, sortarea și publicarea sarcinilor chinezești și evaluările standardizate și, în cele din urmă, promovarea dezvoltării NLP chineze.



Clasamentul Open LLMAutentificarea cu hyperlink este vizibilă.

Compară modelele mari de limbaj într-un mod deschis și repetabil



Comparație între benchmark-urile de evaluare a modelelor mari și performanțaAutentificarea cu hyperlink este vizibilă.

Această pagină arată performanța mai multor modele mari mainstream pe diverse repere de evaluare, inclusiv MMLU, GSM8K, HumanEval și alte seturi de date standard. Ajutăm dezvoltatorii și cercetătorii să înțeleagă performanța diferitelor modele mari în diverse sarcini prin rezultate actualizate ale evaluărilor în timp real. Utilizatorii pot alege să compare modele personalizate cu benchmark-uri de evaluare pentru a obține rapid avantajele și dezavantajele diferitelor modele în aplicații practice.





Precedent:Copiază imaginea blobului în clipboard
Următor:Îndepărtarea unghiulară Zone.js Explorează noi soluții fără zonă
 Proprietarul| Postat la 2024-12-28 10:20:27 |
Qwen este o serie de modele lingvistice mari și modele multimodale mari dezvoltate de echipa Qwen a Grupului Alibaba.
Qwen2.5Autentificarea cu hyperlink este vizibilă.

DeepSeek-V3 este un model MoE dezvoltat de el cu parametri 671B, 37B activat și pre-antrenat pe tokenuri 14.8T.
DeepSeek-V3Autentificarea cu hyperlink este vizibilă.

Zhipu este o companie transformată din realizările tehnologice ale Departamentului de Informatică al Universității Tsinghua
GLM-4-9BAutentificarea cu hyperlink este vizibilă.

Disclaimer:
Tot software-ul, materialele de programare sau articolele publicate de Code Farmer Network sunt destinate exclusiv scopurilor de învățare și cercetare; Conținutul de mai sus nu va fi folosit în scopuri comerciale sau ilegale, altfel utilizatorii vor suporta toate consecințele. Informațiile de pe acest site provin de pe Internet, iar disputele privind drepturile de autor nu au legătură cu acest site. Trebuie să ștergi complet conținutul de mai sus de pe calculatorul tău în termen de 24 de ore de la descărcare. Dacă îți place programul, te rugăm să susții software-ul autentic, să cumperi înregistrarea și să primești servicii autentice mai bune. Dacă există vreo încălcare, vă rugăm să ne contactați prin e-mail.

Mail To:help@itsvse.com