Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 1600|Odpowiedź: 1

[AI] (1) Rankingi dużych modeli open source

[Skopiuj link]
Opublikowano 2024-12-28 10:03:05 | | | |
Chatbot Arena LLMLista:Logowanie do linku jest widoczne.

Chatbot Arena to otwarta platforma do crowdsourcingu benchmarkingu AI, opracowana przez badaczy ze SkyLab i LMArena na Uniwersytecie Kalifornijskim w Berkeley. Platforma wykorzystuje model Bradley-Terry'ego z ponad 1 000 000 głosów, a platforma generuje rankingi w czasie rzeczywistym, które oceniają najlepsze LLM i chatboty AI. Szczegóły techniczne znajdziesz w naszym artykule.



LiveBenchLogowanie do linku jest widoczne.

Benchmarki zaprojektowane specjalnie dla LLM, zaprojektowane z myślą o zanieczyszczeniu zestawu testowego i obiektywnej ocenie.



SuperCLUEOgólna tabela wyników:Logowanie do linku jest widoczne.

Pozycjonowanie wskazówek: Aby lepiej służyć znajomości języka chińskiego, zadaniom i branży, jako uzupełnienie ogólnej oceny modeli językowych, poprawić infrastrukturę poprzez zbieranie, sortowanie i publikowanie zadań chińskich oraz standaryzowanych ocen, a ostatecznie promować rozwój chińskiego NLP.



Tabela wyników Open LLMLogowanie do linku jest widoczne.

Porównaj duże modele językowe w sposób otwarty i powtarzalny



Porównanie benchmarków oceny dużych modeli i wynikówLogowanie do linku jest widoczne.

Ta strona pokazuje wyniki wielu dużych modeli mainstreamowych na różnych benchmarkach ewaluacji, w tym MMLU, GSM8K, HumanEval i innych standardowych zbiorach danych. Pomagamy deweloperom i badaczom zrozumieć wydajność różnych dużych modeli w różnych zadaniach poprzez aktualizowane wyniki oceny w czasie rzeczywistym. Użytkownicy mogą wybrać porównanie niestandardowych modeli z benchmarkami ewaluacyjnymi, aby szybko uzyskać zalety i wady różnych modeli w praktycznych zastosowaniach.





Poprzedni:Skopiuj obraz blobu do schowka
Następny:Usuwanie kątowe Zone.js Odkrywaj nowe rozwiązania bezstrefowe
 Ziemianin| Opublikowano 2024-12-28 10:20:27 |
Qwen to seria dużych modeli językowych i dużych modeli multimodalnych opracowanych przez zespół Qwen z Alibaba Group.
Qwen2.5Logowanie do linku jest widoczne.

DeepSeek-V3 to samodzielnie opracowany model MoE z parametrami 671B, 37B aktywowanym i wstępnie wytrenowanym na tokenach 14.8T.
DeepSeek-V3Logowanie do linku jest widoczne.

Zhipu to firma powstała dzięki osiągnięciom technologicznym Wydziału Informatyki Uniwersytetu Tsinghua
GLM-4-9BLogowanie do linku jest widoczne.

Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com