Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 1600|Jawab: 1

[AI] (1) Peringkat model besar open source

[Salin tautan]
Dipaparkan pada 2024-12-28 10:03:05 | | | |
Chatbot Arena LLMDaftar:Login hyperlink terlihat.

Chatbot Arena adalah platform terbuka untuk pembandingan AI crowdsourcing, yang dikembangkan oleh para peneliti di SkyLab dan LMArena di University of California, Berkeley. Dengan lebih dari 1.000.000 suara pengguna, platform ini menggunakan model Bradley-Terry untuk menghasilkan papan peringkat real-time yang memberi peringkat LLM dan chatbot AI terbaik. Untuk detail teknis, lihat makalah kami.



Bangku LangsungLogin hyperlink terlihat.

Tolok ukur dirancang khusus untuk LLM, dirancang dengan mempertimbangkan kontaminasi set uji dan evaluasi objektif.



PETUNJUK SUPERPapan Peringkat Keseluruhan:Login hyperlink terlihat.

Pemosisian CLUE: Untuk melayani pemahaman, tugas, dan industri bahasa Mandarin dengan lebih baik, sebagai pelengkap evaluasi model bahasa umum, meningkatkan infrastruktur dengan mengumpulkan, menyortir, dan menerbitkan tugas bahasa Mandarin dan penilaian standar, dan pada akhirnya mempromosikan pengembangan NLP Bahasa Mandarin.



Buka Papan Peringkat LLMLogin hyperlink terlihat.

Bandingkan model bahasa besar dengan cara yang terbuka dan dapat diulang



Perbandingan evaluasi model besar, tolok ukur dan kinerjaLogin hyperlink terlihat.

Halaman ini menunjukkan performa beberapa model besar arus utama pada berbagai tolok ukur evaluasi, termasuk MMLU, GSM8K, HumanEval, dan himpunan data standar lainnya. Kami membantu pengembang dan peneliti memahami kinerja model besar yang berbeda dalam berbagai tugas melalui hasil evaluasi yang diperbarui secara real-time. Pengguna dapat memilih untuk membandingkan model khusus dengan tolok ukur evaluasi untuk mendapatkan kelebihan dan kekurangan model yang berbeda dengan cepat dalam aplikasi praktis.





Mantan:Salin gambar blob ke clipboard
Depan:Penghapusan Sudut Zone.js Jelajahi solusi Tanpa Zona baru
 Tuan tanah| Dipaparkan pada 2024-12-28 10:20:27 |
Qwen adalah serangkaian model bahasa besar dan model multimoda besar yang dikembangkan oleh tim Qwen dari Alibaba Group.
Pertanyaan 2.5Login hyperlink terlihat.

DeepSeek-V3 adalah model MoE yang dikembangkan sendiri dengan parameter 671B, 37B diaktifkan, dan telah dilatih sebelumnya pada token 14.8T.
Pencarian Dalam-V3Login hyperlink terlihat.

Zhipu adalah perusahaan yang berubah dari pencapaian teknologi Departemen Ilmu Komputer Universitas Tsinghua
GLM-4-9BLogin hyperlink terlihat.

Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com