[AI] (1) Peringkat model besar open source

Sampah kecil · Diposting pada 28/12/2024 10.03.05

Chatbot Arena LLMDaftar:Login hyperlink terlihat.

Chatbot Arena adalah platform terbuka untuk pembandingan AI crowdsourcing, yang dikembangkan oleh para peneliti di SkyLab dan LMArena di University of California, Berkeley. Dengan lebih dari 1.000.000 suara pengguna, platform ini menggunakan model Bradley-Terry untuk menghasilkan papan peringkat real-time yang memberi peringkat LLM dan chatbot AI terbaik. Untuk detail teknis, lihat makalah kami.

Bangku Langsung：Login hyperlink terlihat.

Tolok ukur dirancang khusus untuk LLM, dirancang dengan mempertimbangkan kontaminasi set uji dan evaluasi objektif.

PETUNJUK SUPERPapan Peringkat Keseluruhan:Login hyperlink terlihat.

Pemosisian CLUE: Untuk melayani pemahaman, tugas, dan industri bahasa Mandarin dengan lebih baik, sebagai pelengkap evaluasi model bahasa umum, meningkatkan infrastruktur dengan mengumpulkan, menyortir, dan menerbitkan tugas bahasa Mandarin dan penilaian standar, dan pada akhirnya mempromosikan pengembangan NLP Bahasa Mandarin.

Buka Papan Peringkat LLM：Login hyperlink terlihat.

Bandingkan model bahasa besar dengan cara yang terbuka dan dapat diulang

Perbandingan evaluasi model besar, tolok ukur dan kinerja：Login hyperlink terlihat.

Halaman ini menunjukkan performa beberapa model besar arus utama pada berbagai tolok ukur evaluasi, termasuk MMLU, GSM8K, HumanEval, dan himpunan data standar lainnya. Kami membantu pengembang dan peneliti memahami kinerja model besar yang berbeda dalam berbagai tugas melalui hasil evaluasi yang diperbarui secara real-time. Pengguna dapat memilih untuk membandingkan model khusus dengan tolok ukur evaluasi untuk mendapatkan kelebihan dan kekurangan model yang berbeda dengan cepat dalam aplikasi praktis.

Sampah kecil · Diposting pada 28/12/2024 10.20.27

Qwen adalah serangkaian model bahasa besar dan model multimoda besar yang dikembangkan oleh tim Qwen dari Alibaba Group.
Pertanyaan 2.5：Login hyperlink terlihat.

DeepSeek-V3 adalah model MoE yang dikembangkan sendiri dengan parameter 671B, 37B diaktifkan, dan telah dilatih sebelumnya pada token 14.8T.
Pencarian Dalam-V3：Login hyperlink terlihat.

Zhipu adalah perusahaan yang berubah dari pencapaian teknologi Departemen Ilmu Komputer Universitas Tsinghua
GLM-4-9B：Login hyperlink terlihat.

[AI] (1) Peringkat model besar open source

Pos terkait

Bagian yang dilihat