llama.cpp Įvadas
Išvados Meta LLaMA modelis (ir kiti) naudojant gryną C/C++. Pagrindinis tikslas llama.cpp įgalinti LLM išvadas įvairioje aparatinėje įrangoje (vietinėje ir debesyje) su minimalia sąranka ir pažangiausiu našumu.
- Grynas C/C++ diegimas be priklausomybių
- "Apple" silicis yra aukščiausios klasės – optimizuotas naudojant ARM NEON, Accelerate ir Metal karkasus
- AVX, AVX2, AVX512 ir AMX palaiko x86 architektūras
- 1,5 bitų, 2 bitų, 3 bitų, 4 bitų, 5 bitų, 6 bitų ir 8 bitų sveikųjų skaičių kvantavimas greitesniam išvadoms ir mažesniam atminties naudojimui
- Pasirinktiniai CUDA branduoliai, skirti paleisti LLM NVIDIA GPU (AMD GPU per HIP ir Moore Threads MTT GPU per MUSA)
- Vulkan ir SYCL backend palaikymas
- CPU+GPU hibridinė išvada, iš dalies pagreitinanti modelius, didesnius už bendrą VRAM talpą
"Github" adresas:Hipersaito prisijungimas matomas. Parsisiųsti adresą:Hipersaito prisijungimas matomas.
Atsisiųsti llama.cpp
Pirmiausia atsisiųskite atitinkamą llama.cpp programinės įrangos versiją pagal kompiuterio aparatinės įrangos konfigūraciją, kaip parodyta paveikslėlyje žemiau:
AVX palaiko 256 bitų platų veikimą. AVX2 taip pat palaiko 256 bitų plačias operacijas, tačiau prideda sveikųjų skaičių operacijų palaikymą ir keletą papildomų instrukcijų. AVX-512 palaiko 512 bitų pločio operacijas, užtikrindamas didesnį lygiagretumą ir našumą, ypač dirbant su dideliais duomenų kiekiais ar slankiojo kablelio operacijomis.
Mano kompiuteris veikia grynu procesoriumi ir palaiko avx512 instrukcijų rinkinį, todėl atsisiųskite "" versiją, atsisiuntimo adresą:Hipersaito prisijungimas matomas.Kai atsisiuntimas bus baigtas, išpakuokite jį įD:\llama-b4658-bin-win-avx512-x64Katalogas.
Atsisiųskite "DeepSeek-R1" modelį
Parsisiųsti adresą:Hipersaito prisijungimas matomas.Šis straipsnis prasideda "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPavyzdžiui.
Tiesiog atsisiųskite jį pagal savo konfigūraciją. Kuo aukštesnis kvantavimo lygis, tuo didesnis failas ir didesnis modelio tikslumas.
llama.cpp Diekite "DeepSeek-R1" modelį
Paleiskite šią komandą failų kataloge DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Kaip parodyta žemiau:
Atidarykite jį naudodami naršyklęhttp://127.0.0.1:8080/Adresas tikrinamas taip, kaip parodyta toliau:
Pridedama veikiančių parametrų konfigūracija:Hipersaito prisijungimas matomas.
|