llama.cpp Uvod
Inference Meta-jev LLaMA model (in drugi) uporablja čisti C/C++. Glavni cilj llama.cpp omogočiti sklepanje LLM na različnih strojnih napravah (lokalno in v oblaku) z minimalno nastavitvijo in najsodobnejšimi zmogljivostmi.
- Čista implementacija v C/C++ brez odvisnosti
- Apple silicij je vrhunski – optimiziran z ogrodji ARM NEON, Accelerate in Metal
- AVX, AVX2, AVX512 in AMX podpirajo arhitekture x86
- 1,5-bitna, 2-bitna, 3-bitna, 4-bitna, 5-bitna, 6-bitna in 8-bitna celoštevilska kvantizacija za hitrejše sklepanje in zmanjšano porabo pomnilnika
- Prilagojena CUDA jedra za zagon LLM-jev na NVIDIA GPU-jih (AMD GPU-ji preko HIP in Moore Threads, MTT GPU-ji preko MUSA)
- Podpora za Vulkan in SYCL backend
- Hibridna inferenca CPU+GPU, delno pospeševanje modelov, večjih od skupne kapacitete VRAM
Github naslov:Prijava do hiperpovezave je vidna. Naslov za prenos:Prijava do hiperpovezave je vidna.
Prenesi llama.cpp
Najprej prenesite ustrezno različico programske opreme llama.cpp glede na strojno konfiguracijo vašega računalnika, kot je prikazano na spodnji sliki:
AVX podpira delovanje v širini 256 bitov. AVX2 podpira tudi operacije širine 256 bitov, vendar dodaja podporo za celoštevilske operacije ter nekaj dodatnih ukazov. AVX-512 podpira operacije širine 512 bitov, kar omogoča povečano vzporednost in zmogljivost, zlasti pri obdelavi velikih količin podatkov ali operacij s plavajočo vejico.
Moj računalnik deluje na čistem CPU in podpira nabor ukazov avx512, zato prenesite različico "" z naslovom za prenos:Prijava do hiperpovezave je vidna.Ko je prenos končan, ga razpakirajte naD:\llama-b4658-bin-win-avx512-x64Direktorij.
Prenesite model DeepSeek-R1
Naslov za prenos:Prijava do hiperpovezave je vidna.Ta članek se začne z "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNa primer.
Preprosto ga prenesite glede na svojo konfiguracijo. Višja kot je stopnja kvantizacije, večja je datoteka in natančnost modela večja.
llama.cpp Uvedba modela DeepSeek-R1
Zaženite naslednji ukaz v mapi datotek DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Kot je prikazano spodaj:
Odpri ga v brskalnikuhttp://127.0.0.1:8080/Naslov se testira, kot je prikazano spodaj:
Priložena je konfiguracija tekočih parametrov:Prijava do hiperpovezave je vidna.
|