[AI] (7) llama.cpp naudojimas "DeepSeek-R1" modeliui diegti vietoje

Mažai purvo · Paskelbta 2025-02-07 13:58:06

llama.cpp Įvadas

Išvados Meta LLaMA modelis (ir kiti) naudojant gryną C/C++. Pagrindinis tikslas llama.cpp įgalinti LLM išvadas įvairioje aparatinėje įrangoje (vietinėje ir debesyje) su minimalia sąranka ir pažangiausiu našumu.

Grynas C/C++ diegimas be priklausomybių
"Apple" silicis yra aukščiausios klasės – optimizuotas naudojant ARM NEON, Accelerate ir Metal karkasus
AVX, AVX2, AVX512 ir AMX palaiko x86 architektūras
1,5 bitų, 2 bitų, 3 bitų, 4 bitų, 5 bitų, 6 bitų ir 8 bitų sveikųjų skaičių kvantavimas greitesniam išvadoms ir mažesniam atminties naudojimui
Pasirinktiniai CUDA branduoliai, skirti paleisti LLM NVIDIA GPU (AMD GPU per HIP ir Moore Threads MTT GPU per MUSA)
Vulkan ir SYCL backend palaikymas
CPU+GPU hibridinė išvada, iš dalies pagreitinanti modelius, didesnius už bendrą VRAM talpą

"Github" adresas:Hipersaito prisijungimas matomas.
Parsisiųsti adresą:Hipersaito prisijungimas matomas.

Atsisiųsti llama.cpp

Pirmiausia atsisiųskite atitinkamą llama.cpp programinės įrangos versiją pagal kompiuterio aparatinės įrangos konfigūraciją, kaip parodyta paveikslėlyje žemiau:

AVX palaiko 256 bitų platų veikimą.
AVX2 taip pat palaiko 256 bitų plačias operacijas, tačiau prideda sveikųjų skaičių operacijų palaikymą ir keletą papildomų instrukcijų.
AVX-512 palaiko 512 bitų pločio operacijas, užtikrindamas didesnį lygiagretumą ir našumą, ypač dirbant su dideliais duomenų kiekiais ar slankiojo kablelio operacijomis.

Mano kompiuteris veikia grynu procesoriumi ir palaiko avx512 instrukcijų rinkinį, todėl atsisiųskite "" versiją, atsisiuntimo adresą:Hipersaito prisijungimas matomas.Kai atsisiuntimas bus baigtas, išpakuokite jį įD:\llama-b4658-bin-win-avx512-x64Katalogas.

Atsisiųskite "DeepSeek-R1" modelį

Parsisiųsti adresą:Hipersaito prisijungimas matomas.Šis straipsnis prasideda "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPavyzdžiui.

Tiesiog atsisiųskite jį pagal savo konfigūraciją. Kuo aukštesnis kvantavimo lygis, tuo didesnis failas ir didesnis modelio tikslumas.

llama.cpp Diekite "DeepSeek-R1" modelį

Paleiskite šią komandą failų kataloge DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Prisijungimas matomas.

Kaip parodyta žemiau:

Atidarykite jį naudodami naršyklęhttp://127.0.0.1:8080/Adresas tikrinamas taip, kaip parodyta toliau:

Pridedama veikiančių parametrų konfigūracija:Hipersaito prisijungimas matomas.

Mažai purvo · Paskelbta 2025-03-05 10:48:53

AI modelių bendruomenė

Oficiali "Hugging Face" svetainė:https://huggingface.co/
Apkabinimo veido buitinis veidrodis:https://hf-mirror.com/
"Magic Matching" modelistaikymo sritis:https://www.modelscope.cn/

[AI] (7) llama.cpp naudojimas "DeepSeek-R1" modeliui diegti vietoje

Susijusios žinutės

Peržiūrėtos sekcijos