llama.cpp Introduksjon
Inference Metas LLaMA-modell (og andre) som bruker ren C/C++. Hovedmålet llama.cpp å muliggjøre LLM-inferenser på ulike maskinvare (både lokalt og i skyen) med minimal oppsett og topp moderne ytelse.
- Ren C/C++-implementering uten avhengigheter
- Apple-silisium er førsteklasses – optimalisert med ARM NEON, Accelerate og Metal-rammeverk
- AVX, AVX2, AVX512 og AMX støtter x86-arkitekturer
- 1,5-bits, 2-bits, 3-bits, 4-bits, 5-bits, 6-bits og 8-bits heltallskvantisering for raskere slutning og redusert minnebruk
- Egendefinerte CUDA-kjerner for å kjøre LLM-er på NVIDIA GPU-er (AMD-GPUer via HIP og Moore Threads MTT-GPUer via MUSA)
- Støtte for Vulkan og SYCL backend
- CPU+GPU hybrid inferens, delvis akselererer modeller større enn den totale VRAM-kapasiteten
Github-adresse:Innloggingen med hyperkoblingen er synlig. Nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.
Last ned llama.cpp
Først, last ned den tilsvarende versjonen av llama.cpp-programvaren i henhold til maskinvarekonfigurasjonen på datamaskinen din, som vist i figuren nedenfor:
AVX støtter 256-bits bred drift. AVX2 støtter også 256-bits brede operasjoner, men legger til støtte for heltallsoperasjoner samt noen ekstra instruksjoner. AVX-512 støtter 512-bits brede operasjoner, noe som gir økt parallellitet og ytelse, spesielt ved håndtering av store datamengder eller flyttallsoperasjoner.
Datamaskinen min kjører på ren CPU og støtter avx512-instruksjonssettet, så last ned """-versjonen, nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.Etter at nedlastingen er fullført, pakk den ut tilD:\llama-b4658-bin-win-avx512-x64Adressebok.
Last ned DeepSeek-R1-modellen
Nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.Denne artikkelen begynner med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufFor eksempel.
Last det bare ned etter din egen konfigurasjon. Jo høyere kvantiseringsnivå, desto større fil, og desto høyere nøyaktighet i modellen.
llama.cpp Ta i bruk DeepSeek-R1-modellen
Kjør følgende kommando i filkatalogen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Som vist nedenfor:
Åpne den i en nettleserhttp://127.0.0.1:8080/Adressen testes som vist nedenfor:
Vedlagt er konfigurasjonen av løpende parametere:Innloggingen med hyperkoblingen er synlig.
|