Chatbot Arena LLMDaftar:Login hyperlink terlihat.
Chatbot Arena adalah platform terbuka untuk pembandingan AI crowdsourcing, yang dikembangkan oleh para peneliti di SkyLab dan LMArena di University of California, Berkeley. Dengan lebih dari 1.000.000 suara pengguna, platform ini menggunakan model Bradley-Terry untuk menghasilkan papan peringkat real-time yang memberi peringkat LLM dan chatbot AI terbaik. Untuk detail teknis, lihat makalah kami.
Bangku Langsung:Login hyperlink terlihat.
Tolok ukur dirancang khusus untuk LLM, dirancang dengan mempertimbangkan kontaminasi set uji dan evaluasi objektif.
PETUNJUK SUPERPapan Peringkat Keseluruhan:Login hyperlink terlihat.
Pemosisian CLUE: Untuk melayani pemahaman, tugas, dan industri bahasa Mandarin dengan lebih baik, sebagai pelengkap evaluasi model bahasa umum, meningkatkan infrastruktur dengan mengumpulkan, menyortir, dan menerbitkan tugas bahasa Mandarin dan penilaian standar, dan pada akhirnya mempromosikan pengembangan NLP Bahasa Mandarin.
Buka Papan Peringkat LLM:Login hyperlink terlihat.
Bandingkan model bahasa besar dengan cara yang terbuka dan dapat diulang
Perbandingan evaluasi model besar, tolok ukur dan kinerja:Login hyperlink terlihat.
Halaman ini menunjukkan performa beberapa model besar arus utama pada berbagai tolok ukur evaluasi, termasuk MMLU, GSM8K, HumanEval, dan himpunan data standar lainnya. Kami membantu pengembang dan peneliti memahami kinerja model besar yang berbeda dalam berbagai tugas melalui hasil evaluasi yang diperbarui secara real-time. Pengguna dapat memilih untuk membandingkan model khusus dengan tolok ukur evaluasi untuk mendapatkan kelebihan dan kekurangan model yang berbeda dengan cepat dalam aplikasi praktis.
|