[AI] (1) Odprtokodne lestvice velikih modelov

Mala drhal · Objavljeno na 28. 12. 2024 10:03:05

Chatbot Arena LLMSeznam:Prijava do hiperpovezave je vidna.

Chatbot Arena je odprta platforma za množično zbiranje AI benchmarkinga, ki sta jo razvila raziskovalca pri SkyLabu in LMArena na Univerzi Kalifornije v Berkeleyju. Platforma z več kot 1.000.000 glasovi uporabnikov uporablja model Bradley-Terry za ustvarjanje lestvic v realnem času, ki rangirajo najboljše LLM-je in AI klepetalne robote. Za tehnične podrobnosti si oglejte naš članek.

LiveBench：Prijava do hiperpovezave je vidna.

Referenčne točke, zasnovane posebej za LLM-je, zasnovane z mislijo na kontaminacijo testnih nizov in objektivno ocenjevanje.

SuperNAMIGSkupna lestvica:Prijava do hiperpovezave je vidna.

Pozicioniranje namigov: Da bi bolje služili razumevanju kitajskega jezika, nalogam in industriji, kot dopolnilo splošni evalvaciji jezikovnih modelov, izboljšajte infrastrukturo z zbiranjem, razvrščanjem in objavljanjem kitajskih nalog ter standardiziranih ocen ter na koncu spodbujajte razvoj kitajskega NLP.

Open LLM lestvica：Prijava do hiperpovezave je vidna.

Primerjajte velike jezikovne modele na odprt in ponovljiv način

Primerjava meril za ocenjevanje velikih modelov in uspešnosti：Prijava do hiperpovezave je vidna.

Ta stran prikazuje uspešnost več velikih glavnih modelov na različnih evalvacijskih merilih, vključno z MMLU, GSM8K, HumanEval in drugimi standardnimi podatkovnimi nizi. Razvijalcem in raziskovalcem pomagamo razumeti zmogljivost različnih velikih modelov pri različnih nalogah s pomočjo posodobljenih evalvacijskih rezultatov v realnem času. Uporabniki lahko izberejo primerjavo prilagojenih modelov z evalvacijskimi merili, da hitro pridobijo prednosti in slabosti različnih modelov v praktičnih aplikacijah.

Mala drhal · Objavljeno na 28. 12. 2024 10:20:27

Qwen je serija velikih jezikovnih modelov in velikih multimodalnih modelov, ki jih je razvila ekipa Qwen iz Alibaba Group.
Qwen2.5：Prijava do hiperpovezave je vidna.

DeepSeek-V3 je samorazvit model MoE s parametri 671B, 37B aktiviranim in predhodno treniranim na žetonih 14,8T.
DeepSeek-V3：Prijava do hiperpovezave je vidna.

Zhipu je podjetje, ki je nastalo iz tehnoloških dosežkov Oddelka za računalništvo Univerze Tsinghua
GLM-4-9B：Prijava do hiperpovezave je vidna.

[AI] (1) Odprtokodne lestvice velikih modelov

Sorodne objave

Ogledi odsekov