[AI] (7) Kasuta llama.cpp DeepSeek-R1 mudeli kohapealseks juurutamiseks

Väike sodi · Postitatud 07.02.2025 13:58:06

llama.cpp Sissejuhatus

Inference Meta LLaMA mudel (ja teised), kasutades puhast C/C++. Peamine eesmärk llama.cpp võimaldada LLM-i järeldamist erineval riistvaral (kohapeal ja pilves) minimaalse seadistuse ja tipptasemel jõudlusega.

Puhas C/C++ rakendus ilma sõltuvusteta
Apple silicon on tipptasemel – optimeeritud ARM NEON, Accelerate ja Metal raamistikuga
AVX, AVX2, AVX512 ja AMX toetavad x86 arhitektuure
1,5-bitine, 2-bitine, 3-bitine, 4-bitine, 5-bitine, 6-bitine ja 8-bitine täisarvuline kvantimine kiiremaks järelduseks ja vähendatud mälukasutuseks
Kohandatud CUDA tuumad LLM-ide käitamiseks NVIDIA GPU-del (AMD GPU-d HIP kaudu ja Moore Threads MTT GPU-d MUSA kaudu)
Vulkan ja SYCL backend tugi
CPU+GPU hübriidjäreldus, mis osaliselt kiirendab mudeleid, mis on suuremad kui kogu VRAM-i maht

Githubi aadress:Hüperlingi sisselogimine on nähtav.
Allalaadimise aadress:Hüperlingi sisselogimine on nähtav.

Laadi alla llama.cpp

Esiteks laadi alla vastav llama.cpp tarkvara versioon vastavalt oma arvuti riistvaralisele konfiguratsioonile, nagu alloleval joonisel näidatud:

AVX toetab 256-bitist laiust tööd.
AVX2 toetab samuti 256-bitisi operatsioone, kuid lisab toe täisarvulistele operatsioonidele ning mõningatele täiendavatele käskudele.
AVX-512 toetab 512-bitisi laiu operatsioone, pakkudes suuremat paralleelsust ja jõudlust, eriti suurte andmemahtude või ujukoma-operatsioonide puhul.

Minu arvuti töötab puhtalt CPU-l ja toetab avx512 käsukomplekti, seega laadi alla "" versioon, allalaadimise aadress:Hüperlingi sisselogimine on nähtav.Pärast allalaadimise lõpetamist avage seeD:\llama-b4658-bin-win-avx512-x64Kataloog.

Laadi alla DeepSeek-R1 mudel

Allalaadimise aadress:Hüperlingi sisselogimine on nähtav.See artikkel algab sõnadega "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNäiteks.

Lihtsalt laadi see alla vastavalt oma konfiguratsioonile. Mida kõrgem on kvantimise tase, seda suurem fail ja seda suurem on mudeli täpsus.

llama.cpp Juuruta DeepSeek-R1 mudel

Käivita järgmine käsk DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf failikataloogis:

Sisselogimine on nähtav.

Nagu allpool näidatud:

Ava see brauserigahttp://127.0.0.1:8080/Aadressi testitakse allpool näidatud kujul:

Lisatud on jooksva parameetri konfiguratsioon:Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 05.03.2025 10:48:53

AI mudelikogukond

Hugging Face ametlik veebileht:https://huggingface.co/
Kallistav nägu kodune peegel:https://hf-mirror.com/
Maagilise sobitamise mudeliskoop:https://www.modelscope.cn/

[AI] (7) Kasuta llama.cpp DeepSeek-R1 mudeli kohapealseks juurutamiseks

Seotud postitused

Vaadatud sektsioonid