この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 1600|答える: 1

[AI] (1) オープンソースの大型モデルランキング

[リンクをコピー]
2024年12月28日 10:03:05に投稿 | | | |
チャットボットアリーナ LLMリスト:ハイパーリンクのログインが見えます。

Chatbot Arenaは、カリフォルニア大学バークレー校のSkyLabとLMArenaの研究者によって開発された、AIベンチマーキングのクラウドソーシングを目的としたオープンプラットフォームです。 100万以上のユーザー投票を得たプラットフォームは、Bradley-Terryモデルを用いてリアルタイムリーダーボードを作成し、優れたLLMやAIチャットボットをランキングしています。 技術的な詳細は、私たちの論文をご覧ください。



ライブベンチハイパーリンクのログインが見えます。

テストセットの汚染と客観的評価を念頭に置き、LLM向けに特別に設計されたベンチマーク。



スーパークルー総合リーダーボード:ハイパーリンクのログインが見えます。

CLUEのポジショニング:中国語理解、タスク、産業により良くサービスを提供するため、一般的な言語モデル評価の補完として、中国語タスクや標準化評価の収集、分類、公開を通じてインフラを改善し、最終的には中国語自然言語処理(NLP)の発展を促進します。



オープンLLMリーダーボードハイパーリンクのログインが見えます。

大規模言語モデルをオープンかつ再現可能な方法で比較する



大規模モデル評価ベンチマークと性能の比較ハイパーリンクのログインが見えます。

このページでは、MMLU、GSM8K、HumanEvalなどの標準データセットを含む複数の主流大規模モデルが様々な評価ベンチマークでのパフォーマンスを示しています。 私たちは、リアルタイムで更新された評価結果を通じて、開発者や研究者がさまざまなタスクにおける異なる大規模モデルのパフォーマンスを理解するのを支援しています。 ユーザーはカスタムモデルと評価ベンチマークを比較することで、実用的な応用における異なるモデルの利点と欠点を素早く把握できます。





先の:ブロブ画像をクリップボードにコピーしてください
次に:角度除去Zone.js新しいゾーンレスソリューションの探求
 地主| 2024年12月28日 10:20:27に投稿 |
Qwenは、アリババグループのQwenチームによって開発された大規模言語モデルおよび大規模マルチモーダルモデルのシリーズです。
Qwen2.5ハイパーリンクのログインが見えます。

DeepSeek-V3は671Bパラメータ、37Bが有効化、14.8Tトークンで事前学習された自ら開発のMoEモデルです。
ディープシーク-V3ハイパーリンクのログインが見えます。

志浦は清華大学コンピュータサイエンス学科の技術的成果から生まれ変貌した企業です
GLM-4-9Bハイパーリンクのログインが見えます。

免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com