[AI] (7) Brug llama.cpp til at implementere DeepSeek-R1-modellen on-premises

Lille skarn · Opslået på 07/02/2025 13.58.06

llama.cpp Introduktion

Inference Metas LLaMA-model (og andre) bruger ren C/C++. Det primære mål llama.cpp at muliggøre LLM-inferenser på forskellig hardware (både lokalt og i skyen) med minimal opsætning og topmoderne ydeevne.

Ren C/C++-implementering uden afhængigheder
Apple Silicon er i topklasse – optimeret med ARM NEON, Accelerate og Metal-rammeværk
AVX, AVX2, AVX512 og AMX understøtter x86-arkitekturer
1,5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit og 8-bit heltalskvantisering for hurtigere slutning og reduceret hukommelsesforbrug
Brugerdefinerede CUDA-kerner til at køre LLM'er på NVIDIA GPU'er (AMD-GPU'er via HIP og Moore Threads MTT-GPU'er via MUSA)
Vulkan og SYCL backend-understøttelse
CPU+GPU hybrid inferens, delvist accelererende modeller større end den samlede VRAM-kapacitet

Github-adresse:Hyperlink-login er synlig.
Downloadadresse:Hyperlink-login er synlig.

Download llama.cpp

Først skal du downloade den tilsvarende version af llama.cpp-softwaren i henhold til din computers hardwarekonfiguration, som vist i figuren nedenfor:

AVX understøtter 256-bit bred drift.
AVX2 understøtter også 256-bit brede operationer, men tilføjer understøttelse af heltalsoperationer samt nogle ekstra instruktioner.
AVX-512 understøtter 512-bit brede operationer, hvilket giver øget parallelisme og ydeevne, især ved håndtering af store datamængder eller flydende kommatal-operationer.

Min computer kører udelukkende på CPU og understøtter avx512 instruktionssættet, så download "" versionen, downloadadresse:Hyperlink-login er synlig.Når downloadet er færdigt, skal du pakke det ud tilD:\llama-b4658-bin-win-avx512-x64Mappe.

Download DeepSeek-R1-modellen

Downloadadresse:Hyperlink-login er synlig.Denne artikel begynder med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufFor eksempel.

Download det bare efter din egen konfiguration. Jo højere quantiseringsniveau, desto større fil, og desto højere er modellens nøjagtighed.

llama.cpp Udrul DeepSeek-R1-modellen

Kør følgende kommando i filmappen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Login er synlig.

Som vist nedenfor:

Åbn den i en browserhttp://127.0.0.1:8080/Adressen testes som vist nedenfor:

Vedhæftet er konfigurationen af løbende parameter:Hyperlink-login er synlig.

Lille skarn · Opslået på 05/03/2025 10.48.53

AI-modelfællesskab

Hugging Face Officiel Hjemmeside:https://huggingface.co/
Krammeansigt Spejl:https://hf-mirror.com/
Magisk Matchningsmodelscope:https://www.modelscope.cn/

[AI] (7) Brug llama.cpp til at implementere DeepSeek-R1-modellen on-premises

Relaterede indlæg

Afsnit set