[AI] (1) Open Source класации на големи модели

Малък боклук · Публикувано в 28.12.2024 г. 10:03:05 ч.

Чатбот Арена LLMСписък:Входът към хиперлинк е видим.

Chatbot Arena е отворена платформа за краудсорсинг на AI бенчмаркинг, разработена от изследователи в SkyLab и LMArena в Калифорнийския университет, Бъркли. С над 1 000 000 гласа от потребители, платформата използва модела Bradley-Terry, за да генерира класации в реално време, които класират най-добрите LLM и AI чатботове. За технически подробности разгледайте нашата статия.

LiveBench：Входът към хиперлинк е видим.

Бенчмаркове, проектирани специално за LLM, с оглед на замърсяването на тестовите комплекти и обективната оценка.

SuperCLUEОбща класация:Входът към хиперлинк е видим.

CLUE позициониране: За да се обслужва по-добре разбирането на китайски език, задачите и индустрията, като допълнение към общата оценка на езиковите модели, да се подобри инфраструктурата чрез събиране, сортиране и публикуване на китайски задачи и стандартизирани оценки, и в крайна сметка да се насърчи развитието на китайския езиков език.

Open LLM класация：Входът към хиперлинк е видим.

Сравнявайте големите езикови модели по открит и повторяем начин

Сравнение на бенчмаркове за оценка на големи модели и представяне：Входът към хиперлинк е видим.

Тази страница показва представянето на множество големи основни модели по различни оценъчни тестове, включително MMLU, GSM8K, HumanEval и други стандартни набори от данни. Помагаме на разработчиците и изследователите да разберат представянето на различни големи модели в различни задачи чрез актуализирани резултати от оценката в реално време. Потребителите могат да изберат да сравняват персонализирани модели с оценъчни тестове, за да получат бързо предимствата и недостатъците на различните модели в практическите приложения.

Малък боклук · Публикувано в 28.12.2024 г. 10:20:27 ч.

Qwen е серия от големи езикови модели и големи мултимодални модели, разработени от екипа Qwen на Alibaba Group.
Qwen2.5：Входът към хиперлинк е видим.

DeepSeek-V3 е саморазработен MoE модел с 671B параметри, активиран 37B и предварително обучен на 14.8T токени.
DeepSeek-V3：Входът към хиперлинк е видим.

Zhipu е компания, трансформирана от технологичните постижения на Катедрата по компютърни науки на Университета Цинхуа
GLM-4-9B：Входът към хиперлинк е видим.

[AI] (1) Open Source класации на големи модели

Свързани публикации

Разгледани секции