이 글은 기계 번역의 미러 문서이며, 원본 기사로 바로 이동하려면 여기를 클릭해 주세요.

보기: 2195|회답: 1

[AI] (7) llama.cpp 사용하여 DeepSeek-R1 모델을 온프레미스에 배포하기

[링크 복사]
2025-2-7 13:58:06에 게시됨 | | | |
llama.cpp 소개

Inference Meta의 LLaMA 모델(및 기타 모델)은 순수 C/C++를 사용합니다. 주요 목표는 최소한의 설정과 최첨단 성능으로 다양한 하드웨어(온프레미스 및 클라우드)에서 LLM 추론을 가능하게 하는 llama.cpp것입니다.

  • 의존성이 없는 순수 C/C++ 구현
  • 애플 실리콘은 ARM NEON, Accelerate, Metal 프레임워크로 최적화되어 최고 수준입니다
  • AVX, AVX2, AVX512, AMX는 x86 아키텍처를 지원합니다
  • 1.5비트, 2비트, 3비트, 4비트, 5비트, 6비트, 8비트 정수 양자화를 통해 추론 속도와 메모리 사용량 감소를 위해 사용되었습니다
  • NVIDIA GPU에서 LLM을 실행하는 맞춤형 CUDA 코어(AMD GPU는 HIP를 사용하고, Moore Threads는 MUSA를 통해 MTT GPU)
  • Vulkan 및 SYCL 백엔드 지원
  • CPU+GPU 하이브리드 추론, 전체 VRAM 용량보다 큰 모델을 부분적으로 가속


깃허브 주소:하이퍼링크 로그인이 보입니다.
다운로드 주소:하이퍼링크 로그인이 보입니다.

다운로드 llama.cpp

먼저, 아래 그림에 나와 같이 컴퓨터 하드웨어 구성에 따라 해당 버전의 llama.cpp 소프트웨어를 다운로드하세요:



AVX는 256비트 폭 동작을 지원합니다.
AVX2는 256비트 연산도 지원하지만, 정수 연산과 일부 추가 명령어도 지원합니다.
AVX-512는 512비트 연산을 지원하여, 특히 대량의 데이터나 부동소수점 연산을 처리할 때 병렬성과 성능을 향상시킵니다.

제 컴퓨터는 순수 CPU로 동작하며 avx512 명령어 세트를 지원하니, "" 버전과 다운로드 주소를 다운로드하세요:하이퍼링크 로그인이 보입니다.다운로드가 완료된 후에는 압축을 해제하세요.D:\llama-b4658-bin-win-avx512-x64디렉토리.

DeepSeek-R1 모델 다운로드

다운로드 주소:하이퍼링크 로그인이 보입니다.이 글은 다음과 같이 시작합니다딥시크-R1-디스틸-웬-1.5B-Q3_K_L.gguf예를 들어.

본인 설정에 따라 다운로드하세요. 양자화 수준이 높을수록 파일 크기가 크고 모델의 정확도도 높아집니다.

llama.cpp DeepSeek-R1 모델 배포

DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf 파일 디렉터리에서 다음 명령을 실행하세요:

아래에 나와 있습니다:



브라우저로 열어 보세요http://127.0.0.1:8080/주소는 다음과 같이 테스트됩니다:



첨부된 것은 실행 매개변수 구성입니다:하이퍼링크 로그인이 보입니다.




이전의:프론트엔드는 .js 파일로부터 .d.ts 파일을 생성합니다
다음:올라마 모델 풀 문제 해결 방법
 집주인| 2025-3-5 10:48:53에 게시됨 |
AI 모델 커뮤니티

허깅 페이스 공식 웹사이트:https://huggingface.co/
포옹하는 얼굴 가정용 거울:https://hf-mirror.com/
매직 매칭 모델스코프:https://www.modelscope.cn/
면책 조항:
Code Farmer Network에서 발행하는 모든 소프트웨어, 프로그래밍 자료 또는 기사는 학습 및 연구 목적으로만 사용됩니다; 위 내용은 상업적 또는 불법적인 목적으로 사용되지 않으며, 그렇지 않으면 모든 책임이 사용자에게 부담됩니다. 이 사이트의 정보는 인터넷에서 가져온 것이며, 저작권 분쟁은 이 사이트와는 관련이 없습니다. 위 내용은 다운로드 후 24시간 이내에 컴퓨터에서 완전히 삭제해야 합니다. 프로그램이 마음에 드신다면, 진짜 소프트웨어를 지원하고, 등록을 구매하며, 더 나은 진짜 서비스를 받아주세요. 침해가 있을 경우 이메일로 연락해 주시기 바랍니다.

Mail To:help@itsvse.com