[AI] (1) Açık kaynak büyük model sıralamaları

Küçük · Yayınlandı 28.12.2024 10:03:05

Chatbot Arena LLMListe:Bağlantı girişi görünür.

Chatbot Arena, Kaliforniya Üniversitesi, Berkeley'deki SkyLab ve LMArena araştırmacıları tarafından geliştirilen, kitlesel kaynak yoluyla yapay zeka kıyaslama için açık bir platformdur. 1.000.000'den fazla kullanıcı oyuyla platform, Bradley-Terry modelini kullanarak en iyi LLM'leri ve yapay zeka sohbet botlarını sıralayan gerçek zamanlı liderlik tabloları oluşturuyor. Teknik detaylar için makalemize göz atın.

LiveBench：Bağlantı girişi görünür.

LLM'ler için özel olarak tasarlanmış, test seti kirlenme ve nesnel değerlendirme göz önünde bulundurularak hazırlanmış kıyaslamalar.

Süper İLANGenel Liderlik Tablosu:Bağlantı girişi görünür.

İP Pozisyonları: Çince dili anlayışına, görevlere ve sektöre daha iyi hizmet vermek için, genel dil modeli değerlendirmesine ek olarak, Çince görevleri ve standartlaştırılmış değerlendirmeleri toplayarak ve sıralayıp yayımlayarak altyapıyı geliştirin ve nihayetinde Çin NLP'sinin gelişimini teşvik edin.

Açık LLM Liderlik Tablosu：Bağlantı girişi görünür.

Büyük dil modellerini açık ve tekrarlanabilir şekilde karşılaştırın

Büyük model değerlendirme kıyaslamaları ve performansının karşılaştırılması：Bağlantı girişi görünür.

Bu sayfa, MMLU, GSM8K, HumanEval ve diğer standart veri setleri dahil olmak üzere çeşitli değerlendirme ölçütlerinde birden fazla ana akım büyük modelin performansını göstermektedir. Geliştiricilere ve araştırmacılara, farklı büyük modellerin çeşitli görevlerdeki performansını gerçek zamanlı güncellenmiş değerlendirme sonuçları aracılığıyla anlamalarına yardımcı oluyoruz. Kullanıcılar, farklı modellerin pratik uygulamalardaki avantaj ve dezavantajlarını hızlıca elde etmek için özel modelleri değerlendirme kıyaslamalarıyla karşılaştırmayı seçebilirler.

Küçük · Yayınlandı 28.12.2024 10:20:27

Qwen, Alibaba Grubu'nun Qwen ekibi tarafından geliştirilen büyük dil modelleri ve büyük multimodal modeller serisidir.
Qwen2.5：Bağlantı girişi görünür.

DeepSeek-V3, 671B parametreli, 37B aktif ve 14.8T tokenlar üzerinde önceden eğitilen kendi geliştirdiği bir MoE modelidir.
DeepSeek-V3：Bağlantı girişi görünür.

Zhipu, Tsinghua Üniversitesi Bilgisayar Bilimleri Bölümü'nün teknolojik başarılarından dönüşen bir şirkettir.
GLM-4-9B：Bağlantı girişi görünür.

[AI] (1) Açık kaynak büyük model sıralamaları

İlgili Yazılar

Görüntülenen bölümler