[AI] (7) llama.cpp 사용하여 DeepSeek-R1 모델을 온프레미스에 배포하기

작은 쓰레기 같은 놈들 · 게시됨 2025. 2. 7. 오후 1:58:06

llama.cpp 소개

Inference Meta의 LLaMA 모델(및 기타 모델)은 순수 C/C++를 사용합니다. 주요 목표는 최소한의 설정과 최첨단 성능으로 다양한 하드웨어(온프레미스 및 클라우드)에서 LLM 추론을 가능하게 하는 llama.cpp것입니다.

의존성이 없는 순수 C/C++ 구현
애플 실리콘은 ARM NEON, Accelerate, Metal 프레임워크로 최적화되어 최고 수준입니다
AVX, AVX2, AVX512, AMX는 x86 아키텍처를 지원합니다
1.5비트, 2비트, 3비트, 4비트, 5비트, 6비트, 8비트 정수 양자화를 통해 추론 속도와 메모리 사용량 감소를 위해 사용되었습니다
NVIDIA GPU에서 LLM을 실행하는 맞춤형 CUDA 코어(AMD GPU는 HIP를 사용하고, Moore Threads는 MUSA를 통해 MTT GPU)
Vulkan 및 SYCL 백엔드 지원
CPU+GPU 하이브리드 추론, 전체 VRAM 용량보다 큰 모델을 부분적으로 가속

깃허브 주소:하이퍼링크 로그인이 보입니다.
다운로드 주소:하이퍼링크 로그인이 보입니다.

다운로드 llama.cpp

먼저, 아래 그림에 나와 같이 컴퓨터 하드웨어 구성에 따라 해당 버전의 llama.cpp 소프트웨어를 다운로드하세요:

AVX는 256비트 폭 동작을 지원합니다.
AVX2는 256비트 연산도 지원하지만, 정수 연산과 일부 추가 명령어도 지원합니다.
AVX-512는 512비트 연산을 지원하여, 특히 대량의 데이터나 부동소수점 연산을 처리할 때 병렬성과 성능을 향상시킵니다.

제 컴퓨터는 순수 CPU로 동작하며 avx512 명령어 세트를 지원하니, "" 버전과 다운로드 주소를 다운로드하세요:하이퍼링크 로그인이 보입니다.다운로드가 완료된 후에는 압축을 해제하세요.D:\llama-b4658-bin-win-avx512-x64디렉토리.

DeepSeek-R1 모델 다운로드

다운로드 주소:하이퍼링크 로그인이 보입니다.이 글은 다음과 같이 시작합니다딥시크-R1-디스틸-웬-1.5B-Q3_K_L.gguf예를 들어.

본인 설정에 따라 다운로드하세요. 양자화 수준이 높을수록 파일 크기가 크고 모델의 정확도도 높아집니다.

llama.cpp DeepSeek-R1 모델 배포

DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf 파일 디렉터리에서 다음 명령을 실행하세요:

로그인이 보이네요.

아래에 나와 있습니다:

브라우저로 열어 보세요http://127.0.0.1:8080/주소는 다음과 같이 테스트됩니다:

첨부된 것은 실행 매개변수 구성입니다:하이퍼링크 로그인이 보입니다.

작은 쓰레기 같은 놈들 · 게시됨 2025. 3. 5. 오전 10:48:53

AI 모델 커뮤니티

허깅 페이스 공식 웹사이트:https://huggingface.co/
포옹하는 얼굴 가정용 거울:https://hf-mirror.com/
매직 매칭 모델스코프:https://www.modelscope.cn/

[AI] (7) llama.cpp 사용하여 DeepSeek-R1 모델을 온프레미스에 배포하기

관련 게시물

본 섹션