[AI] (7) Bruke llama.cpp til å implementere DeepSeek-R1-modellen lokalt

Lille skurk · Publisert på 07.02.2025 13:58:06

llama.cpp Introduksjon

Inference Metas LLaMA-modell (og andre) som bruker ren C/C++. Hovedmålet llama.cpp å muliggjøre LLM-inferenser på ulike maskinvare (både lokalt og i skyen) med minimal oppsett og topp moderne ytelse.

Ren C/C++-implementering uten avhengigheter
Apple-silisium er førsteklasses – optimalisert med ARM NEON, Accelerate og Metal-rammeverk
AVX, AVX2, AVX512 og AMX støtter x86-arkitekturer
1,5-bits, 2-bits, 3-bits, 4-bits, 5-bits, 6-bits og 8-bits heltallskvantisering for raskere slutning og redusert minnebruk
Egendefinerte CUDA-kjerner for å kjøre LLM-er på NVIDIA GPU-er (AMD-GPUer via HIP og Moore Threads MTT-GPUer via MUSA)
Støtte for Vulkan og SYCL backend
CPU+GPU hybrid inferens, delvis akselererer modeller større enn den totale VRAM-kapasiteten

Github-adresse:Innloggingen med hyperkoblingen er synlig.
Nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.

Last ned llama.cpp

Først, last ned den tilsvarende versjonen av llama.cpp-programvaren i henhold til maskinvarekonfigurasjonen på datamaskinen din, som vist i figuren nedenfor:

AVX støtter 256-bits bred drift.
AVX2 støtter også 256-bits brede operasjoner, men legger til støtte for heltallsoperasjoner samt noen ekstra instruksjoner.
AVX-512 støtter 512-bits brede operasjoner, noe som gir økt parallellitet og ytelse, spesielt ved håndtering av store datamengder eller flyttallsoperasjoner.

Datamaskinen min kjører på ren CPU og støtter avx512-instruksjonssettet, så last ned """-versjonen, nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.Etter at nedlastingen er fullført, pakk den ut tilD:\llama-b4658-bin-win-avx512-x64Adressebok.

Last ned DeepSeek-R1-modellen

Nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.Denne artikkelen begynner med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufFor eksempel.

Last det bare ned etter din egen konfigurasjon. Jo høyere kvantiseringsnivå, desto større fil, og desto høyere nøyaktighet i modellen.

llama.cpp Ta i bruk DeepSeek-R1-modellen

Kjør følgende kommando i filkatalogen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Innlogging er synlig.

Som vist nedenfor:

Åpne den i en nettleserhttp://127.0.0.1:8080/Adressen testes som vist nedenfor:

Vedlagt er konfigurasjonen av løpende parametere:Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 05.03.2025 10:48:53

AI-modellfellesskap

Hugging Face offisiell nettside:https://huggingface.co/
Klemmende ansikt hjemmespeil:https://hf-mirror.com/
Magisk tilpasningsmodell:https://www.modelscope.cn/

[AI] (7) Bruke llama.cpp til å implementere DeepSeek-R1-modellen lokalt

Relaterte innlegg

Seksjoner sett