llama.cpp Úvod
Model LLaMA od Inference Meta (a ďalšie) využívajúci čistý C/C++. Hlavným cieľom llama.cpp umožniť inferenciu LLM na rôznom hardvéri (lokálne aj v cloude) s minimálnym nastavením a špičkovým výkonom.
- Čistá implementácia v C/C++ bez závislostí
- Apple silikón je špičkový – optimalizovaný s ARM NEON, Accelerate a metalovými rámami
- AVX, AVX2, AVX512 a AMX podporujú architektúry x86
- 1,5-bitová, 2-bitová, 3-bitová, 4-bitová, 5-bitová, 6-bitová a 8-bitová celočíselná kvantizácia pre rýchlejšiu inferenciu a zníženie využitia pamäte
- Vlastné CUDA jadrá na spúšťanie LLM na NVIDIA GPU (AMD GPU cez HIP a Moore Thread, MTT GPU cez MUSA)
- Podpora backendu Vulkan a SYCL
- Hybridná inferencia CPU+GPU, čiastočné zrýchlenie modelov väčších ako celková kapacita VRAM
Github adresa:Prihlásenie na hypertextový odkaz je viditeľné. Adresa na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.
Stiahnuť llama.cpp
Najprv si stiahnite zodpovedajúcu verziu llama.cpp softvéru podľa hardvérovej konfigurácie vášho počítača, ako je znázornené na obrázku nižšie:
AVX podporuje prevádzku širokú 256 bitov. AVX2 tiež podporuje operácie široké 256 bitov, ale pridáva podporu pre celočíselné operácie a niektoré ďalšie inštrukcie. AVX-512 podporuje operácie široké 512 bitov, čím poskytuje zvýšenú paralelizáciu a výkon, najmä pri spracovaní veľkého množstva dát alebo operácií s pohyblivou desatinnou čiarkou.
Môj počítač beží čisto na CPU a podporuje inštrukčný set avx512, takže si stiahnite verziu "" s adresou na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.Po dokončení sťahovania ho rozbalte naD:\llama-b4658-bin-win-avx512-x64Adresár.
Stiahnite si model DeepSeek-R1
Adresa na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.Tento článok začína "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNapríklad.
Jednoducho si ho stiahni podľa vlastnej konfigurácie. Čím vyššia je úroveň kvantizácie, tým väčší súbor a tým vyššia presnosť modelu.
llama.cpp Nasadenie modelu DeepSeek-R1
Spustite nasledujúci príkaz v adresári súborov DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Ako je uvedené nižšie:
Otvorte ho v prehliadačihttp://127.0.0.1:8080/Adresa sa testuje, ako je uvedené nižšie:
Priložená je konfigurácia bežiacich parametrov:Prihlásenie na hypertextový odkaz je viditeľné.
|