[AI] (1) Atvirojo kodo didelių modelių reitingai

Mažai purvo · Paskelbta 2024-12-28 10:03:05

Chatbot Arena LLMSąrašas:Hipersaito prisijungimas matomas.

"Chatbot Arena" yra atvira sutelktinės dirbtinio intelekto lyginamosios analizės platforma, kurią sukūrė Kalifornijos universiteto Berklyje "SkyLab" ir "LMArena" tyrėjai. Turėdama daugiau nei 1 000 000 vartotojų balsų, platforma naudoja Bradley-Terry modelį, kad realiuoju laiku generuotų lyderių lenteles, kuriose reitinguojami geriausi LLM ir AI pokalbių robotai. Techninės informacijos rasite mūsų dokumente.

LiveBench：Hipersaito prisijungimas matomas.

Etalonai, sukurti specialiai LLM, sukurti atsižvelgiant į bandymų rinkinio užterštumą ir objektyvų vertinimą.

SuperCLUEBendra lyderių lentelė:Hipersaito prisijungimas matomas.

CLUE pozicionavimas: Siekiant geriau aptarnauti kinų kalbos supratimą, užduotis ir pramonę, kaip bendro kalbos modelio vertinimo papildymą, pagerinti infrastruktūrą renkant, rūšiuojant ir skelbiant kinų užduotis ir standartizuotus vertinimus ir galiausiai skatinti kinų NLP plėtrą.

Atidarykite LLM lyderių lentelę：Hipersaito prisijungimas matomas.

Palyginkite didelius kalbos modelius atviru ir pakartojamu būdu

Didelių modelių vertinimo etalonų ir našumo palyginimas：Hipersaito prisijungimas matomas.

Šiame puslapyje rodomas kelių pagrindinių didelių modelių našumas įvairiuose vertinimo etalonuose, įskaitant MMLU, GSM8K, HumanEval ir kitus standartinius duomenų rinkinius. Mes padedame kūrėjams ir tyrėjams suprasti skirtingų didelių modelių našumą atliekant įvairias užduotis, realiuoju laiku atnaujindami vertinimo rezultatus. Vartotojai gali pasirinkti palyginti pasirinktinius modelius su vertinimo etalonais, kad greitai gautų skirtingų modelių privalumus ir trūkumus praktiniame taikyme.

Mažai purvo · Paskelbta 2024-12-28 10:20:27

Qwen yra didelių kalbos modelių ir didelių multimodalinių modelių serija, kurią sukūrė "Alibaba Group" Qwen komanda.
Qwen2.5：Hipersaito prisijungimas matomas.

DeepSeek-V3 yra savarankiškai sukurtas MoE modelis su 671B parametrais, 37B aktyvuotas ir iš anksto apmokytas 14.8T žetonais.
DeepSeek-V3：Hipersaito prisijungimas matomas.

"Zhipu" yra įmonė, transformuota iš Tsinghua universiteto Informatikos katedros technologinių pasiekimų
GLM-4-9B：Hipersaito prisijungimas matomas.

[AI] (1) Atvirojo kodo didelių modelių reitingai

Susijusios žinutės

Peržiūrėtos sekcijos