[ШІ] (1) Відкриті рейтинги великих моделей

Маленька покидька · Опубліковано 28.12.2024 10:03:05

Чатбот Арена LLMСписок:Вхід за гіперпосиланням видно.

Chatbot Arena — це відкрита платформа для краудсорсингу бенчмаркінгу ШІ, розроблена дослідниками зі SkyLab та LMArena з Каліфорнійського університету в Берклі. З понад 1 000 000 голосів користувачів платформа використовує модель Бредлі-Террі для створення таблиць лідерів у реальному часі, які ранжують найкращі LLM та чат-боти на основі ШІ. Для технічних деталей ознайомтеся з нашою статтею.

LiveBench：Вхід за гіперпосиланням видно.

Бенчмарки розроблені спеціально для LLM, розроблені з урахуванням забруднення тестових наборів та об'єктивної оцінки.

SuperCLUEЗагальна таблиця лідерів:Вхід за гіперпосиланням видно.

Позиціонування CLUE: Для кращого обслуговування розуміння китайської мови, завдань і індустрії, як доповнення до загальної оцінки мовних моделей, покращити інфраструктуру шляхом збору, сортування та публікації китайських завдань і стандартизованих оцінок, а зрештою сприяти розвитку китайського НЛП.

Відкрита таблиця лідерів LLM：Вхід за гіперпосиланням видно.

Порівнюйте великі мовні моделі відкрито та повторювано

Порівняння бенчмарків оцінки великих моделей та продуктивності：Вхід за гіперпосиланням видно.

Ця сторінка показує продуктивність кількох основних великих моделей на різних тестах оцінки, включно з MMLU, GSM8K, HumanEval та іншими стандартними наборами даних. Ми допомагаємо розробникам і дослідникам розуміти продуктивність різних великих моделей у різних завданнях через оновлені результати оцінки в реальному часі. Користувачі можуть порівнювати індивідуальні моделі з оцінювальними бенчмарками, щоб швидко отримати переваги та недоліки різних моделей у практичних застосуваннях.

Маленька покидька · Опубліковано 28.12.2024 10:20:27

Qwen — це серія великих мовних моделей і великих мультимодальних моделей, розроблених командою Qwen групи Alibaba.
Qwen2.5：Вхід за гіперпосиланням видно.

DeepSeek-V3 — це саморозроблена модель MoE з параметрами 671B, активованими 37B, попередньо навченими на токенах 14.8T.
DeepSeek-V3：Вхід за гіперпосиланням видно.

Zhipu — це компанія, трансформована з технологічних досягнень кафедри комп'ютерних наук Університету Цінхуа
GLM-4-9B：Вхід за гіперпосиланням видно.

[ШІ] (1) Відкриті рейтинги великих моделей

Пов'язані дописи

Переглянуті розділи