[AI] (1) Nyílt forráskódú nagy modellrangok

Kis szemét · Közzétéve 2024. 12. 28. 10:03:05

Chatbot Arena LLMLista:A hiperlink bejelentkezés látható.

A Chatbot Arena egy nyílt platform az AI benchmarking közösségi megkeresésére, amelyet a Kaliforniai Egyetem Berkeley SkyLab és LMArena kutatói fejlesztettek ki. Több mint 1 000 000 felhasználói szavazattal a platform a Bradley-Terry modellt használja valós idejű ranglisták generálására, amelyek a legjobb LLM-eket és AI chatbotokat sorolják. A technikai részletekért olvasd a tanulmányunkat.

LiveBench：A hiperlink bejelentkezés látható.

Kifejezetten LLM-ek számára tervezett benchmarkok, a tesztkészlet szennyeződését és objektív értékelést szem előtt tartva.

SuperCLUEÁltalános ranglistá:A hiperlink bejelentkezés látható.

TIPP pozicionálás: A kínai nyelv megértésének jobb kiszolgálása érdekében feladatok és az ipar számára, mint az általános nyelvi modell értékelésének kiegészítése, javítsuk az infrastruktúrát a kínai feladatok és szabványosított értékelések gyűjtésével, válogatásával és publikálásával, és végső soron elősegítsék a kínai NLP fejlesztését.

Open LLM ranglista：A hiperlink bejelentkezés látható.

Hasonlítsuk össze a nagy nyelvi modelleket nyíltan és ismételhető módon

A nagy modell értékelési benchmarkok és teljesítmény összehasonlítása：A hiperlink bejelentkezés látható.

Ez az oldal több mainstream nagy modell teljesítményét mutatja be különböző értékelési benchmarkokon, beleértve az MMLU-t, GSM8K-t, HumanEval-t és más szabványos adathalmazokat. Segítünk fejlesztőknek és kutatóknak megérteni a különböző nagy modellek teljesítményét különböző feladatokban valós időben, frissített értékelési eredmények révén. A felhasználók választhatják, hogy egyedi modelleket hasonlítanak össze értékelési benchmarkokkal, hogy gyorsan megkapják a különböző modellek előnyeit és hátrányait gyakorlati alkalmazásokban.

Kis szemét · Közzétéve 2024. 12. 28. 10:20:27

A Qwen egy sor nagy nyelvi és nagy multimodális modellekből, amelyeket az Alibaba Group Qwen csapata fejlesztett ki.
Qwen2.5：A hiperlink bejelentkezés látható.

A DeepSeek-V3 egy saját fejlesztésű MoE modell, amely 671B paraméterekkel rendelkezik, 37B aktiválva, és előre betanítva 14,8T tokenekre.
DeepSeek-V3：A hiperlink bejelentkezés látható.

A Zhipu egy olyan vállalat, amely a Tsinghua Egyetem Számítástechnikai Tanszékének technológiai eredményeiből alakult ki
GLM-4-9B：A hiperlink bejelentkezés látható.

[AI] (1) Nyílt forráskódú nagy modellrangok

Kapcsolódó bejegyzések

Megtekintett szakaszok