[ИИ] (1) Открытые рейтинги крупных моделей

Маленькая мразь · Опубликовано 28.12.2024 10:03:05

Чатбот Arena LLMСписок:Вход по гиперссылке виден.

Chatbot Arena — это открытая платформа для краудсорсинга бенчмаркинга ИИ, разработанная исследователями из SkyLab и LMArena Калифорнийского университета в Беркли. С более чем 1 000 000 голосов пользователей платформа использует модель Брэдли-Терри для создания таблиц лидеров в реальном времени, в которых ранжируются лучшие LLM и чат-боты на базе ИИ. Для технических подробностей ознакомьтесь с нашей статьёй.

LiveBench：Вход по гиперссылке виден.

Эталоны, разработанные специально для LLM, с учётом загрязнения тестового набора и объективной оценки.

SuperCLUEОбщая таблица лидеров:Вход по гиперссылке виден.

Позиционирование CLUE: Для лучшего обслуживания понимания китайского языка, задач и отрасли, в качестве дополнения к общей оценке языковых моделей, улучшения инфраструктуры путём сбора, сортировки и публикации китайских заданий и стандартизированных оценок, а в конечном итоге — продвижения развития китайского НЛП.

Таблица лидеров Open LLM：Вход по гиперссылке виден.

Сравнивайте крупные языковые модели открыто и повторяемо

Сравнение бенчмарков оценки крупных моделей и производительности：Вход по гиперссылке виден.

На этой странице показана производительность нескольких крупных основных моделей на различных оценочных тестах, включая MMLU, GSM8K, HumanEval и другие стандартные наборы данных. Мы помогаем разработчикам и исследователям понимать производительность различных крупных моделей в различных задачах с помощью обновленных результатов оценки в реальном времени. Пользователи могут сравнивать пользовательские модели с оценочными эталонами, чтобы быстро получить преимущества и недостатки различных моделей в практических приложениях.

Маленькая мразь · Опубликовано 28.12.2024 10:20:27

Qwen — это серия крупных языковых и крупных мультимодальных моделей, разработанных командой Qwen группы Alibaba.
Qwen2.5：Вход по гиперссылке виден.

DeepSeek-V3 — это самостоятельно разработанная модель MoE с параметрами 671B, активированным 37B и предварительно обученным на токенах 14.8T.
DeepSeek-V3：Вход по гиперссылке виден.

Zhipu — это компания, трансформированная на основе технологических достижений кафедры компьютерных наук Университета Цинхуа
GLM-4-9B：Вход по гиперссылке виден.

[ИИ] (1) Открытые рейтинги крупных моделей

Связанные публикации

Просмотренные разделы