Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 1600|Svar: 1

[AI] (1) Open source rangeringer af store modeller

[Kopier link]
Opslået den 28-12-2024 kl. 10:03:05 | | | |
Chatbot Arena LLMListe:Hyperlink-login er synlig.

Chatbot Arena er en åben platform til crowdsourcing af AI-benchmarking, udviklet af forskere ved SkyLab og LMArena ved University of California, Berkeley. Med over 1.000.000 brugerstemmer bruger platformen Bradley-Terry-modellen til at generere realtids-leaderboards, der rangerer de bedste LLM'er og AI-chatbots. For tekniske detaljer, se vores artikel.



LiveBenchHyperlink-login er synlig.

Benchmarks designet specifikt til LLM'er, designet med testsætforurening og objektiv evaluering for øje.



SuperCLUESamlet resultatliste:Hyperlink-login er synlig.

CLUE-positionering: For bedre at kunne tjene kinesisk sprogforståelse, opgaver og industrien, som supplement til generel sprogmodelevaluering, forbedre infrastrukturen ved at indsamle, sortere og offentliggøre kinesiske opgaver og standardiserede vurderinger, og i sidste ende fremme udviklingen af kinesisk NLP.



Åben LLM LeaderboardHyperlink-login er synlig.

Sammenlign store sprogmodeller på en åben og gentagelig måde



Sammenligning af benchmarks for evaluering af store modeller og ydeevneHyperlink-login er synlig.

Denne side viser ydeevnen for flere store mainstream-modeller på forskellige evalueringsbenchmarks, herunder MMLU, GSM8K, HumanEval og andre standarddatasæt. Vi hjælper udviklere og forskere med at forstå ydeevnen af forskellige store modeller i forskellige opgaver gennem opdaterede evalueringsresultater i realtid. Brugere kan vælge at sammenligne brugerdefinerede modeller med evalueringsbenchmarks for hurtigt at få fordele og ulemper ved forskellige modeller i praktiske anvendelser.





Tidligere:Kopier blob-billedet til udklipsholderen
Næste:Fjernelse af vinkler Zone.js Udforsk nye Zoneless-løsninger
 Udlejer| Opslået den 28-12-2024 kl. 10:20:27 |
Qwen er en serie af store sprogmodeller og store multimodale modeller udviklet af Qwen-teamet i Alibaba Group.
Qwen2.5Hyperlink-login er synlig.

DeepSeek-V3 er en selvudviklet MoE-model med 671B parametre, 37B aktiveret og forudtrænet på 14,8T tokens.
DeepSeek-V3Hyperlink-login er synlig.

Zhipu er en virksomhed, der er transformeret ud fra de teknologiske resultater fra Institut for Datalogi ved Tsinghua Universitet
GLM-4-9BHyperlink-login er synlig.

Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com