llama.cpp Inleiding
Inference Meta's LLaMA-model (en andere) met puur gebruik van C/C++. Het primaire doel llama.cpp om LLM-inferentie mogelijk te maken op diverse hardware (zowel lokaal als in de cloud) met minimale opstelling en state-of-the-art prestaties.
- Pure C/C++-implementatie zonder afhankelijkheden
- Apple-silicium is van topkwaliteit – geoptimaliseerd met ARM NEON, Accelerate en Metal-frameworks
- AVX, AVX2, AVX512 en AMX ondersteunen x86-architecturen
- 1,5-bits, 2-bits, 3-bits, 4-bits, 5-bits, 6-bits en 8-bits integer-quantisatie voor snellere inferentie en verminderd geheugengebruik
- Aangepaste CUDA-cores voor het draaien van LLM's op NVIDIA GPU's (AMD-GPU's via HIP en Moore Threads MTT GPU's via MUSA)
- Ondersteuning voor Vulkan en SYCL backend
- CPU+GPU hybride inferentie, waarbij modellen die groter zijn dan de totale VRAM-capaciteit gedeeltelijk versnelt
Github-adres:De hyperlink-login is zichtbaar. Downloadadres:De hyperlink-login is zichtbaar.
Download llama.cpp
Download eerst de bijbehorende versie van de llama.cpp-software volgens de hardwareconfiguratie van je computer, zoals te zien is in de onderstaande figuur:
AVX ondersteunt 256-bit brede werking. AVX2 ondersteunt ook bewerkingen van 256 bits, maar voegt ondersteuning toe voor integer-operaties en enkele extra instructies. De AVX-512 ondersteunt 512-bits brede bewerkingen, wat zorgt voor meer paralleliteit en prestaties, vooral bij het verwerken van grote hoeveelheden data of floating-point-operaties.
Mijn computer draait op een pure CPU en ondersteunt de avx512 instructieset, dus download de "" versie, downloadadres:De hyperlink-login is zichtbaar.Nadat de download is voltooid, pak je het uitD:\llama-b4658-bin-win-avx512-x64Map.
Download het DeepSeek-R1 model
Downloadadres:De hyperlink-login is zichtbaar.Dit artikel begint met "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufBijvoorbeeld.
Download het gewoon volgens je eigen configuratie. Hoe hoger het quantisatieniveau, hoe groter het bestand en hoe hoger de nauwkeurigheid van het model.
llama.cpp Zet het DeepSeek-R1-model in
Voer het volgende commando uit in de DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf bestandsmap:
Zoals hieronder getoond:
Open het via een browserhttp://127.0.0.1:8080/Het adres wordt getest zoals hieronder weergegeven:
Bijgevoegd is de configuratie van de running parameter:De hyperlink-login is zichtbaar.
|