Ця стаття є дзеркальною статтею машинного перекладу, будь ласка, натисніть тут, щоб перейти до оригінальної статті.

Вид: 1600|Відповідь: 1

[ШІ] (1) Відкриті рейтинги великих моделей

[Копіювати посилання]
Опубліковано 2024-12-28 10:03:05 | | | |
Чатбот Арена LLMСписок:Вхід за гіперпосиланням видно.

Chatbot Arena — це відкрита платформа для краудсорсингу бенчмаркінгу ШІ, розроблена дослідниками зі SkyLab та LMArena з Каліфорнійського університету в Берклі. З понад 1 000 000 голосів користувачів платформа використовує модель Бредлі-Террі для створення таблиць лідерів у реальному часі, які ранжують найкращі LLM та чат-боти на основі ШІ. Для технічних деталей ознайомтеся з нашою статтею.



LiveBenchВхід за гіперпосиланням видно.

Бенчмарки розроблені спеціально для LLM, розроблені з урахуванням забруднення тестових наборів та об'єктивної оцінки.



SuperCLUEЗагальна таблиця лідерів:Вхід за гіперпосиланням видно.

Позиціонування CLUE: Для кращого обслуговування розуміння китайської мови, завдань і індустрії, як доповнення до загальної оцінки мовних моделей, покращити інфраструктуру шляхом збору, сортування та публікації китайських завдань і стандартизованих оцінок, а зрештою сприяти розвитку китайського НЛП.



Відкрита таблиця лідерів LLMВхід за гіперпосиланням видно.

Порівнюйте великі мовні моделі відкрито та повторювано



Порівняння бенчмарків оцінки великих моделей та продуктивностіВхід за гіперпосиланням видно.

Ця сторінка показує продуктивність кількох основних великих моделей на різних тестах оцінки, включно з MMLU, GSM8K, HumanEval та іншими стандартними наборами даних. Ми допомагаємо розробникам і дослідникам розуміти продуктивність різних великих моделей у різних завданнях через оновлені результати оцінки в реальному часі. Користувачі можуть порівнювати індивідуальні моделі з оцінювальними бенчмарками, щоб швидко отримати переваги та недоліки різних моделей у практичних застосуваннях.





Попередній:Скопіюйте зображення плями у буфер обміну
Наступний:Кутове видалення Zone.js Досліджуйте нові беззонні рішення
 Орендодавець| Опубліковано 2024-12-28 10:20:27 |
Qwen — це серія великих мовних моделей і великих мультимодальних моделей, розроблених командою Qwen групи Alibaba.
Qwen2.5Вхід за гіперпосиланням видно.

DeepSeek-V3 — це саморозроблена модель MoE з параметрами 671B, активованими 37B, попередньо навченими на токенах 14.8T.
DeepSeek-V3Вхід за гіперпосиланням видно.

Zhipu — це компанія, трансформована з технологічних досягнень кафедри комп'ютерних наук Університету Цінхуа
GLM-4-9BВхід за гіперпосиланням видно.

Застереження:
Усе програмне забезпечення, програмні матеріали або статті, опубліковані Code Farmer Network, призначені лише для навчання та досліджень; Вищезазначений контент не повинен використовуватися в комерційних чи незаконних цілях, інакше користувачі несуть усі наслідки. Інформація на цьому сайті надходить з Інтернету, і спори щодо авторських прав не мають до цього сайту. Ви повинні повністю видалити вищезазначений контент зі свого комп'ютера протягом 24 годин після завантаження. Якщо вам подобається програма, будь ласка, підтримуйте справжнє програмне забезпечення, купуйте реєстрацію та отримайте кращі справжні послуги. Якщо є будь-яке порушення, будь ласка, зв'яжіться з нами електронною поштою.

Mail To:help@itsvse.com