[AI] (7) Gebruik llama.cpp om het DeepSeek-R1-model on-premises uit te rollen

Klein tuig · Geplaatst op 07-02-2025 13:58:06

llama.cpp Inleiding

Inference Meta's LLaMA-model (en andere) met puur gebruik van C/C++. Het primaire doel llama.cpp om LLM-inferentie mogelijk te maken op diverse hardware (zowel lokaal als in de cloud) met minimale opstelling en state-of-the-art prestaties.

Pure C/C++-implementatie zonder afhankelijkheden
Apple-silicium is van topkwaliteit – geoptimaliseerd met ARM NEON, Accelerate en Metal-frameworks
AVX, AVX2, AVX512 en AMX ondersteunen x86-architecturen
1,5-bits, 2-bits, 3-bits, 4-bits, 5-bits, 6-bits en 8-bits integer-quantisatie voor snellere inferentie en verminderd geheugengebruik
Aangepaste CUDA-cores voor het draaien van LLM's op NVIDIA GPU's (AMD-GPU's via HIP en Moore Threads MTT GPU's via MUSA)
Ondersteuning voor Vulkan en SYCL backend
CPU+GPU hybride inferentie, waarbij modellen die groter zijn dan de totale VRAM-capaciteit gedeeltelijk versnelt

Github-adres:De hyperlink-login is zichtbaar.
Downloadadres:De hyperlink-login is zichtbaar.

Download llama.cpp

Download eerst de bijbehorende versie van de llama.cpp-software volgens de hardwareconfiguratie van je computer, zoals te zien is in de onderstaande figuur:

AVX ondersteunt 256-bit brede werking.
AVX2 ondersteunt ook bewerkingen van 256 bits, maar voegt ondersteuning toe voor integer-operaties en enkele extra instructies.
De AVX-512 ondersteunt 512-bits brede bewerkingen, wat zorgt voor meer paralleliteit en prestaties, vooral bij het verwerken van grote hoeveelheden data of floating-point-operaties.

Mijn computer draait op een pure CPU en ondersteunt de avx512 instructieset, dus download de "" versie, downloadadres:De hyperlink-login is zichtbaar.Nadat de download is voltooid, pak je het uitD:\llama-b4658-bin-win-avx512-x64Map.

Download het DeepSeek-R1 model

Downloadadres:De hyperlink-login is zichtbaar.Dit artikel begint met "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufBijvoorbeeld.

Download het gewoon volgens je eigen configuratie. Hoe hoger het quantisatieniveau, hoe groter het bestand en hoe hoger de nauwkeurigheid van het model.

llama.cpp Zet het DeepSeek-R1-model in

Voer het volgende commando uit in de DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf bestandsmap:

Inloggen is zichtbaar.

Zoals hieronder getoond:

Open het via een browserhttp://127.0.0.1:8080/Het adres wordt getest zoals hieronder weergegeven:

Bijgevoegd is de configuratie van de running parameter:De hyperlink-login is zichtbaar.

Klein tuig · Geplaatst op 05-03-2025 10:48:53

AI-modelgemeenschap

Officiële website van Hugging Face:https://huggingface.co/
Omhelzing Gezicht Huiselijke Spiegel:https://hf-mirror.com/
Magic Matching modelscoop:https://www.modelscope.cn/

[AI] (7) Gebruik llama.cpp om het DeepSeek-R1-model on-premises uit te rollen

Gerelateerde berichten

Secties bekeken