[AI] (1) Atvērtā koda lielo modeļu klasifikācija

Maz putas · Publicēts 28.12.2024 10:03:05

Čatbots Arēna LLMSaraksts:Hipersaites pieteikšanās ir redzama.

Chatbot Arena ir atvērta platforma pūļa resursu AI salīdzinošajai novērtēšanai, ko izstrādājuši SkyLab un LMArena pētnieki Kalifornijas universitātē Bērklijā. Ar vairāk nekā 1 000 000 lietotāju balsīm platforma izmanto Bredlija-Terija modeli, lai izveidotu reāllaika līderu sarakstus, kuros tiek vērtēti labākie LLM un AI tērzēšanas roboti. Lai iegūtu tehnisku informāciju, skatiet mūsu dokumentu.

LiveBench：Hipersaites pieteikšanās ir redzama.

Etaloni, kas īpaši izstrādāti LLM, izstrādāti, ņemot vērā testa kopas piesārņojumu un objektīvu novērtējumu.

SuperCLUEKopējais līderu saraksts:Hipersaites pieteikšanās ir redzama.

CLUE pozicionēšana: Lai labāk kalpotu ķīniešu valodas izpratnei, uzdevumiem un nozarei, kā papildinājumu vispārējai valodas modeļa novērtēšanai, uzlabot infrastruktūru, apkopojot, šķirojot un publicējot ķīniešu uzdevumus un standartizētus novērtējumus, un galu galā veicināt ķīniešu NLP attīstību.

Atvērt LLM līderu sarakstu：Hipersaites pieteikšanās ir redzama.

Salīdziniet lielus valodu modeļus atklātā un atkārtojamā veidā

Lielo modeļu novērtēšanas kritēriju un veiktspējas salīdzinājums：Hipersaites pieteikšanās ir redzama.

Šajā lapā ir parādīta vairāku galveno lielo modeļu veiktspēja dažādos novērtēšanas etalonos, tostarp MMLU, GSM8K, HumanEval un citās standarta datu kopās. Mēs palīdzam izstrādātājiem un pētniekiem izprast dažādu lielu modeļu veiktspēju dažādos uzdevumos, izmantojot reāllaika atjauninātus novērtēšanas rezultātus. Lietotāji var izvēlēties salīdzināt pielāgotus modeļus ar novērtēšanas etaloniem, lai ātri iegūtu dažādu modeļu priekšrocības un trūkumus praktiskos pielietojumos.

Maz putas · Publicēts 28.12.2024 10:20:27

Qwen ir lielu valodu modeļu un lielu multimodālu modeļu sērija, ko izstrādājusi Alibaba Group Qwen komanda.
Qwen2.5：Hipersaites pieteikšanās ir redzama.

DeepSeek-V3 ir pašizstrādāts MoE modelis ar 671B parametriem, 37B aktivizēts un iepriekš apmācīts uz 14.8T žetoniem.
DeepSeek-V3：Hipersaites pieteikšanās ir redzama.

Zhipu ir uzņēmums, kas pārveidots no Tsinghua universitātes Datorzinātņu katedras tehnoloģiskajiem sasniegumiem
GLM-4-9B：Hipersaites pieteikšanās ir redzama.

[AI] (1) Atvērtā koda lielo modeļu klasifikācija

Saistītās ziņas

Skatītās sadaļas