llama.cpp Introduktion
Inference Metas LLaMA-model (og andre) bruger ren C/C++. Det primære mål llama.cpp at muliggøre LLM-inferenser på forskellig hardware (både lokalt og i skyen) med minimal opsætning og topmoderne ydeevne.
- Ren C/C++-implementering uden afhængigheder
- Apple Silicon er i topklasse – optimeret med ARM NEON, Accelerate og Metal-rammeværk
- AVX, AVX2, AVX512 og AMX understøtter x86-arkitekturer
- 1,5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit og 8-bit heltalskvantisering for hurtigere slutning og reduceret hukommelsesforbrug
- Brugerdefinerede CUDA-kerner til at køre LLM'er på NVIDIA GPU'er (AMD-GPU'er via HIP og Moore Threads MTT-GPU'er via MUSA)
- Vulkan og SYCL backend-understøttelse
- CPU+GPU hybrid inferens, delvist accelererende modeller større end den samlede VRAM-kapacitet
Github-adresse:Hyperlink-login er synlig. Downloadadresse:Hyperlink-login er synlig.
Download llama.cpp
Først skal du downloade den tilsvarende version af llama.cpp-softwaren i henhold til din computers hardwarekonfiguration, som vist i figuren nedenfor:
AVX understøtter 256-bit bred drift. AVX2 understøtter også 256-bit brede operationer, men tilføjer understøttelse af heltalsoperationer samt nogle ekstra instruktioner. AVX-512 understøtter 512-bit brede operationer, hvilket giver øget parallelisme og ydeevne, især ved håndtering af store datamængder eller flydende kommatal-operationer.
Min computer kører udelukkende på CPU og understøtter avx512 instruktionssættet, så download "" versionen, downloadadresse:Hyperlink-login er synlig.Når downloadet er færdigt, skal du pakke det ud tilD:\llama-b4658-bin-win-avx512-x64Mappe.
Download DeepSeek-R1-modellen
Downloadadresse:Hyperlink-login er synlig.Denne artikel begynder med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufFor eksempel.
Download det bare efter din egen konfiguration. Jo højere quantiseringsniveau, desto større fil, og desto højere er modellens nøjagtighed.
llama.cpp Udrul DeepSeek-R1-modellen
Kør følgende kommando i filmappen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Som vist nedenfor:
Åbn den i en browserhttp://127.0.0.1:8080/Adressen testes som vist nedenfor:
Vedhæftet er konfigurationen af løbende parameter:Hyperlink-login er synlig.
|