[AI] (1) 오픈 소스 대형 모델 순위

작은 쓰레기 같은 놈들 · 게시됨 2024. 12. 28. 오전 10:03:05

챗봇 아레나 LLM목록:하이퍼링크 로그인이 보입니다.

챗봇 아레나는 캘리포니아 대학교 버클리의 스카이랩과 LMArena의 연구진이 개발한 AI 벤치마킹을 위한 오픈 플랫폼입니다. 1,000,000명 이상의 사용자 투표를 보유한 이 플랫폼은 Bradley-Terry 모델을 사용해 실시간 리더보드를 생성하여 최고의 LLM과 AI 챗봇을 순위별로 매깁니다. 기술적인 내용은 저희 논문을 참고하세요.

라이브벤치：하이퍼링크 로그인이 보입니다.

테스트 세트 오염과 객관적 평가를 염두에 두고 LLM을 위해 특별히 설계된 벤치마크입니다.

슈퍼클루종합 리더보드:하이퍼링크 로그인이 보입니다.

CLUE 포지셔닝: 중국어 이해, 과제 및 산업에 더 잘 봉사하기 위해, 일반 언어 모델 평가를 보완하기 위해 중국어 과제와 표준화된 평가를 수집, 분류 및 공개하여 인프라를 개선하고, 궁극적으로 중국 NLP 발전을 촉진합니다.

오픈 LLM 리더보드：하이퍼링크 로그인이 보입니다.

대규모 언어 모델을 개방적이고 반복 가능한 방식으로 비교하세요

대형 모델 평가 벤치마크와 성능 비교：하이퍼링크 로그인이 보입니다.

이 페이지는 MMLU, GSM8K, HumanEval 및 기타 표준 데이터셋을 포함한 다양한 평가 벤치마크에서 여러 주류 대형 모델의 성능을 보여줍니다. 우리는 개발자와 연구자가 실시간으로 업데이트된 평가 결과를 통해 다양한 작업에서 대형 모델의 성능을 이해할 수 있도록 돕습니다. 사용자는 맞춤형 모델과 평가 벤치마크를 비교하여 실제 적용에서 다양한 모델의 장단점을 빠르게 파악할 수 있습니다.

작은 쓰레기 같은 놈들 · 게시됨 2024. 12. 28. 오전 10:20:27

Qwen은 알리바바 그룹의 Qwen 팀이 개발한 대형 언어 모델과 대형 다중 모달 모델 시리즈입니다.
Qwen2.5：하이퍼링크 로그인이 보입니다.

DeepSeek-V3는 671B 매개변수를 가진 자체 개발 MoE 모델이며, 37B 매개변수가 활성화되어 있으며 14.8T 토큰으로 사전 학습되었습니다.
딥시크-V3：하이퍼링크 로그인이 보입니다.

Zhipu는 칭화대학교 컴퓨터과학과의 기술 성과에서 탈바꿈한 회사입니다
GLM-4-9B：하이퍼링크 로그인이 보입니다.

[AI] (1) 오픈 소스 대형 모델 순위

관련 게시물

본 섹션