[AI] (1) オープンソースの大型モデルランキング

クズども · 掲載地 2024/12/28 10:03:05

チャットボットアリーナ LLMリスト：ハイパーリンクのログインが見えます。

Chatbot Arenaは、カリフォルニア大学バークレー校のSkyLabとLMArenaの研究者によって開発された、AIベンチマーキングのクラウドソーシングを目的としたオープンプラットフォームです。 100万以上のユーザー投票を得たプラットフォームは、Bradley-Terryモデルを用いてリアルタイムリーダーボードを作成し、優れたLLMやAIチャットボットをランキングしています。技術的な詳細は、私たちの論文をご覧ください。

ライブベンチ：ハイパーリンクのログインが見えます。

テストセットの汚染と客観的評価を念頭に置き、LLM向けに特別に設計されたベンチマーク。

スーパークルー総合リーダーボード:ハイパーリンクのログインが見えます。

CLUEのポジショニング:中国語理解、タスク、産業により良くサービスを提供するため、一般的な言語モデル評価の補完として、中国語タスクや標準化評価の収集、分類、公開を通じてインフラを改善し、最終的には中国語自然言語処理(NLP)の発展を促進します。

オープンLLMリーダーボード：ハイパーリンクのログインが見えます。

大規模言語モデルをオープンかつ再現可能な方法で比較する

大規模モデル評価ベンチマークと性能の比較：ハイパーリンクのログインが見えます。

このページでは、MMLU、GSM8K、HumanEvalなどの標準データセットを含む複数の主流大規模モデルが様々な評価ベンチマークでのパフォーマンスを示しています。私たちは、リアルタイムで更新された評価結果を通じて、開発者や研究者がさまざまなタスクにおける異なる大規模モデルのパフォーマンスを理解するのを支援しています。ユーザーはカスタムモデルと評価ベンチマークを比較することで、実用的な応用における異なるモデルの利点と欠点を素早く把握できます。

クズども · 掲載地 2024/12/28 10:20:27

Qwenは、アリババグループのQwenチームによって開発された大規模言語モデルおよび大規模マルチモーダルモデルのシリーズです。
Qwen2.5：ハイパーリンクのログインが見えます。

DeepSeek-V3は671Bパラメータ、37Bが有効化、14.8Tトークンで事前学習された自ら開発のMoEモデルです。
ディープシーク-V3：ハイパーリンクのログインが見えます。

志浦は清華大学コンピュータサイエンス学科の技術的成果から生まれ変貌した企業です
GLM-4-9B：ハイパーリンクのログインが見えます。

[AI] (1) オープンソースの大型モデルランキング

関連記事

閲覧したセクション