Šis straipsnis yra veidrodinis mašininio vertimo straipsnis, spauskite čia norėdami pereiti prie originalaus straipsnio.

Rodinys: 2195|Atsakyti: 1

[AI] (7) llama.cpp naudojimas "DeepSeek-R1" modeliui diegti vietoje

[Kopijuoti nuorodą]
Publikuota: 2025-2-7 13:58:06 | | | |
llama.cpp Įvadas

Išvados Meta LLaMA modelis (ir kiti) naudojant gryną C/C++. Pagrindinis tikslas llama.cpp įgalinti LLM išvadas įvairioje aparatinėje įrangoje (vietinėje ir debesyje) su minimalia sąranka ir pažangiausiu našumu.

  • Grynas C/C++ diegimas be priklausomybių
  • "Apple" silicis yra aukščiausios klasės – optimizuotas naudojant ARM NEON, Accelerate ir Metal karkasus
  • AVX, AVX2, AVX512 ir AMX palaiko x86 architektūras
  • 1,5 bitų, 2 bitų, 3 bitų, 4 bitų, 5 bitų, 6 bitų ir 8 bitų sveikųjų skaičių kvantavimas greitesniam išvadoms ir mažesniam atminties naudojimui
  • Pasirinktiniai CUDA branduoliai, skirti paleisti LLM NVIDIA GPU (AMD GPU per HIP ir Moore Threads MTT GPU per MUSA)
  • Vulkan ir SYCL backend palaikymas
  • CPU+GPU hibridinė išvada, iš dalies pagreitinanti modelius, didesnius už bendrą VRAM talpą


"Github" adresas:Hipersaito prisijungimas matomas.
Parsisiųsti adresą:Hipersaito prisijungimas matomas.

Atsisiųsti llama.cpp

Pirmiausia atsisiųskite atitinkamą llama.cpp programinės įrangos versiją pagal kompiuterio aparatinės įrangos konfigūraciją, kaip parodyta paveikslėlyje žemiau:



AVX palaiko 256 bitų platų veikimą.
AVX2 taip pat palaiko 256 bitų plačias operacijas, tačiau prideda sveikųjų skaičių operacijų palaikymą ir keletą papildomų instrukcijų.
AVX-512 palaiko 512 bitų pločio operacijas, užtikrindamas didesnį lygiagretumą ir našumą, ypač dirbant su dideliais duomenų kiekiais ar slankiojo kablelio operacijomis.

Mano kompiuteris veikia grynu procesoriumi ir palaiko avx512 instrukcijų rinkinį, todėl atsisiųskite "" versiją, atsisiuntimo adresą:Hipersaito prisijungimas matomas.Kai atsisiuntimas bus baigtas, išpakuokite jį įD:\llama-b4658-bin-win-avx512-x64Katalogas.

Atsisiųskite "DeepSeek-R1" modelį

Parsisiųsti adresą:Hipersaito prisijungimas matomas.Šis straipsnis prasideda "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPavyzdžiui.

Tiesiog atsisiųskite jį pagal savo konfigūraciją. Kuo aukštesnis kvantavimo lygis, tuo didesnis failas ir didesnis modelio tikslumas.

llama.cpp Diekite "DeepSeek-R1" modelį

Paleiskite šią komandą failų kataloge DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Kaip parodyta žemiau:



Atidarykite jį naudodami naršyklęhttp://127.0.0.1:8080/Adresas tikrinamas taip, kaip parodyta toliau:



Pridedama veikiančių parametrų konfigūracija:Hipersaito prisijungimas matomas.




Ankstesnis:Sąsaja sugeneruoja .d.ts failą iš .js failo
Kitą:Kaip išspręsti "Ollama" modelio traukimo problemą
 Savininkas| Publikuota: 2025-3-5 10:48:53 |
AI modelių bendruomenė

Oficiali "Hugging Face" svetainė:https://huggingface.co/
Apkabinimo veido buitinis veidrodis:https://hf-mirror.com/
"Magic Matching" modelistaikymo sritis:https://www.modelscope.cn/
Atsakomybės apribojimas:
Visa programinė įranga, programavimo medžiaga ar straipsniai, kuriuos skelbia Code Farmer Network, yra skirti tik mokymosi ir mokslinių tyrimų tikslams; Aukščiau nurodytas turinys negali būti naudojamas komerciniais ar neteisėtais tikslais, priešingu atveju vartotojai prisiima visas pasekmes. Šioje svetainėje pateikiama informacija gaunama iš interneto, o ginčai dėl autorių teisių neturi nieko bendra su šia svetaine. Turite visiškai ištrinti aukščiau pateiktą turinį iš savo kompiuterio per 24 valandas nuo atsisiuntimo. Jei jums patinka programa, palaikykite autentišką programinę įrangą, įsigykite registraciją ir gaukite geresnes autentiškas paslaugas. Jei yra kokių nors pažeidimų, susisiekite su mumis el. paštu.

Mail To:help@itsvse.com