[AI] (7) Använd llama.cpp för att distribuera DeepSeek-R1-modellen lokalt

Lilla avskum · Publicerad på 2025-02-07 13:58:06

llama.cpp Introduktion

Inference Metas LLaMA-modell (och andra) med ren C/C++. Huvudmålet llama.cpp att möjliggöra LLM-inferens på olika hårdvara (lokalt och i molnet) med minimal installation och toppmodern prestanda.

Ren C/C++-implementation utan beroenden
Apples kisel är förstklassigt – optimerat med ARM NEON, Accelerate och Metal-ramverk
AVX, AVX2, AVX512 och AMX stödjer x86-arkitekturer
1,5-bitars, 2-bitars, 3-bitars, 4-bitars, 5-bitars, 6-bitars och 8-bitars heltalskvantisering för snabbare inferenser och minskad minnesanvändning
Anpassade CUDA-kärnor för att köra LLM på NVIDIA-GPU:er (AMD-GPU:er via HIP och Moore Threads MTT-GPU:er via MUSA)
Backend-stöd för Vulkan och SYCL
CPU+GPU-hybridinferens, delvis accelererande modeller större än den totala VRAM-kapaciteten

Github-adress:Inloggningen med hyperlänken är synlig.
Nedladdningsadress:Inloggningen med hyperlänken är synlig.

Ladda ner llama.cpp

Ladda först ner motsvarande version av llama.cpp-programvaran enligt din dators hårdvarukonfiguration, som visas i figuren nedan:

AVX stödjer 256-bitars bred drift.
AVX2 stöder också 256-bitars operationer, men lägger till stöd för heltalsoperationer samt några ytterligare instruktioner.
AVX-512 stöder 512-bitars operationer i bredd, vilket ger ökad parallellism och prestanda, särskilt vid hantering av stora datamängder eller flyttalsoperationer.

Min dator körs på ren CPU och stöder avx512-instruktionsuppsättningen, så ladda ner ""-versionen, nedladdningsadress:Inloggningen med hyperlänken är synlig.När nedladdningen är klar, packa upp den tillD:\llama-b4658-bin-win-avx512-x64Katalog.

Ladda ner DeepSeek-R1-modellen

Nedladdningsadress:Inloggningen med hyperlänken är synlig.Den här artikeln börjar med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufTill exempel.

Ladda bara ner det enligt din egen konfiguration. Ju högre kvantiseringsnivå, desto större fil och desto högre noggrannhet i modellen.

llama.cpp Implementera DeepSeek-R1-modellen

Kör följande kommando i filkatalogen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Inloggningen är synlig.

Som visas nedan:

Öppna den med en webbläsarehttp://127.0.0.1:8080/Adressen testas enligt nedan:

Bifogad är konfigurationen av löpande parameter:Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2025-03-05 10:48:53

AI-modellgemenskap

Famging Face officiella webbplats:https://huggingface.co/
Kramande ansikte Hemspegel:https://hf-mirror.com/
Magisk matchningsmodell:https://www.modelscope.cn/

[AI] (7) Använd llama.cpp för att distribuera DeepSeek-R1-modellen lokalt

Relaterade inlägg

Avsnitt som ses