이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 1600|회답: 1

[AI] (1) 오픈 소스 대형 모델 순위

[링크 복사]
2024-12-28 10:03:05에 게시됨 | | | |
챗봇 아레나 LLM목록:하이퍼링크 로그인이 보입니다.

챗봇 아레나는 캘리포니아 대학교 버클리의 스카이랩과 LMArena의 연구진이 개발한 AI 벤치마킹을 위한 오픈 플랫폼입니다. 1,000,000명 이상의 사용자 투표를 보유한 이 플랫폼은 Bradley-Terry 모델을 사용해 실시간 리더보드를 생성하여 최고의 LLM과 AI 챗봇을 순위별로 매깁니다. 기술적인 내용은 저희 논문을 참고하세요.



라이브벤치하이퍼링크 로그인이 보입니다.

테스트 세트 오염과 객관적 평가를 염두에 두고 LLM을 위해 특별히 설계된 벤치마크입니다.



슈퍼클루종합 리더보드:하이퍼링크 로그인이 보입니다.

CLUE 포지셔닝: 중국어 이해, 과제 및 산업에 더 잘 봉사하기 위해, 일반 언어 모델 평가를 보완하기 위해 중국어 과제와 표준화된 평가를 수집, 분류 및 공개하여 인프라를 개선하고, 궁극적으로 중국 NLP 발전을 촉진합니다.



오픈 LLM 리더보드하이퍼링크 로그인이 보입니다.

대규모 언어 모델을 개방적이고 반복 가능한 방식으로 비교하세요



대형 모델 평가 벤치마크와 성능 비교하이퍼링크 로그인이 보입니다.

이 페이지는 MMLU, GSM8K, HumanEval 및 기타 표준 데이터셋을 포함한 다양한 평가 벤치마크에서 여러 주류 대형 모델의 성능을 보여줍니다. 우리는 개발자와 연구자가 실시간으로 업데이트된 평가 결과를 통해 다양한 작업에서 대형 모델의 성능을 이해할 수 있도록 돕습니다. 사용자는 맞춤형 모델과 평가 벤치마크를 비교하여 실제 적용에서 다양한 모델의 장단점을 빠르게 파악할 수 있습니다.





이전의:블롭 이미지를 클립보드에 복사하세요
다음:각진 제거 Zone.js 새로운 존리스 솔루션 탐색
 집주인| 2024-12-28 10:20:27에 게시됨 |
Qwen은 알리바바 그룹의 Qwen 팀이 개발한 대형 언어 모델과 대형 다중 모달 모델 시리즈입니다.
Qwen2.5하이퍼링크 로그인이 보입니다.

DeepSeek-V3는 671B 매개변수를 가진 자체 개발 MoE 모델이며, 37B 매개변수가 활성화되어 있으며 14.8T 토큰으로 사전 학습되었습니다.
딥시크-V3하이퍼링크 로그인이 보입니다.

Zhipu는 칭화대학교 컴퓨터과학과의 기술 성과에서 탈바꿈한 회사입니다
GLM-4-9B하이퍼링크 로그인이 보입니다.

면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com