Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 1600|Antwoord: 1

[AI] (1) Open source ranglijsten van grote modellen

[Link kopiëren]
Geplaatst op 28-12-2024 10:03:05 | | | |
Chatbot Arena LLMLijst:De hyperlink-login is zichtbaar.

Chatbot Arena is een open platform voor crowdsourcing van AI-benchmarking, ontwikkeld door onderzoekers van SkyLab en LMArena aan de University of California, Berkeley. Met meer dan 1.000.000 gebruikersstemmen gebruikt het platform het Bradley-Terry-model om realtime leaderboards te genereren die de beste LLM's en AI-chatbots rangschikken. Voor technische details, bekijk ons artikel.



LiveBenchDe hyperlink-login is zichtbaar.

Benchmarks die specifiek zijn ontworpen voor LLM's, ontworpen met testset-contaminatie en objectieve evaluatie in gedachten.



SuperCLUEAlgemeen Klassement:De hyperlink-login is zichtbaar.

CLUE-positionering: Om het Chinese taalbegrip, taken en de industrie beter te bedienen, als aanvulling op de evaluatie van algemene taalmodellen, de infrastructuur te verbeteren door Chinese taken en gestandaardiseerde beoordelingen te verzamelen, te sorteren en te publiceren, en uiteindelijk de ontwikkeling van Chinese NLP te bevorderen.



Open LLM LeaderboardDe hyperlink-login is zichtbaar.

Vergelijk grote taalmodellen op een open en herhaalbare manier



Vergelijking van benchmarks en prestaties voor grote modellenDe hyperlink-login is zichtbaar.

Deze pagina toont de prestaties van meerdere grote modellen op diverse evaluatiebenchmarks, waaronder MMLU, GSM8K, HumanEval en andere standaarddatasets. Wij helpen ontwikkelaars en onderzoekers de prestaties van verschillende grote modellen in diverse taken te begrijpen via realtime bijgewerkte evaluatieresultaten. Gebruikers kunnen ervoor kiezen om aangepaste modellen te vergelijken met evaluatiebenchmarks om snel de voor- en nadelen van verschillende modellen in praktische toepassingen te achterhalen.





Vorig:Kopieer de blob-afbeelding naar het klembord
Volgend:Hoekverwijdering Zone.js Nieuwe Zoneloze oplossingen verkennen
 Huisbaas| Geplaatst op 28-12-2024 10:20:27 |
Qwen is een reeks grote taalmodellen en grote multimodale modellen ontwikkeld door het Qwen-team van Alibaba Group.
Qwen2.5De hyperlink-login is zichtbaar.

DeepSeek-V3 is een zelfontwikkeld MoE-model met 671B parameters, 37B geactiveerd en vooraf getraind op 14,8T-tokens.
DeepSeek-V3De hyperlink-login is zichtbaar.

Zhipu is een bedrijf dat is getransformeerd uit de technologische prestaties van de afdeling Informatica van de Tsinghua Universiteit
GLM-4-9BDe hyperlink-login is zichtbaar.

Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com