[AI] (7) Použiť llama.cpp na nasadenie modelu DeepSeek-R1 lokálne

Malý · Zverejnené 7. 2. 2025 13:58:06

llama.cpp Úvod

Model LLaMA od Inference Meta (a ďalšie) využívajúci čistý C/C++. Hlavným cieľom llama.cpp umožniť inferenciu LLM na rôznom hardvéri (lokálne aj v cloude) s minimálnym nastavením a špičkovým výkonom.

Čistá implementácia v C/C++ bez závislostí
Apple silikón je špičkový – optimalizovaný s ARM NEON, Accelerate a metalovými rámami
AVX, AVX2, AVX512 a AMX podporujú architektúry x86
1,5-bitová, 2-bitová, 3-bitová, 4-bitová, 5-bitová, 6-bitová a 8-bitová celočíselná kvantizácia pre rýchlejšiu inferenciu a zníženie využitia pamäte
Vlastné CUDA jadrá na spúšťanie LLM na NVIDIA GPU (AMD GPU cez HIP a Moore Thread, MTT GPU cez MUSA)
Podpora backendu Vulkan a SYCL
Hybridná inferencia CPU+GPU, čiastočné zrýchlenie modelov väčších ako celková kapacita VRAM

Github adresa:Prihlásenie na hypertextový odkaz je viditeľné.
Adresa na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.

Stiahnuť llama.cpp

Najprv si stiahnite zodpovedajúcu verziu llama.cpp softvéru podľa hardvérovej konfigurácie vášho počítača, ako je znázornené na obrázku nižšie:

AVX podporuje prevádzku širokú 256 bitov.
AVX2 tiež podporuje operácie široké 256 bitov, ale pridáva podporu pre celočíselné operácie a niektoré ďalšie inštrukcie.
AVX-512 podporuje operácie široké 512 bitov, čím poskytuje zvýšenú paralelizáciu a výkon, najmä pri spracovaní veľkého množstva dát alebo operácií s pohyblivou desatinnou čiarkou.

Môj počítač beží čisto na CPU a podporuje inštrukčný set avx512, takže si stiahnite verziu "" s adresou na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.Po dokončení sťahovania ho rozbalte naD:\llama-b4658-bin-win-avx512-x64Adresár.

Stiahnite si model DeepSeek-R1

Adresa na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.Tento článok začína "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNapríklad.

Jednoducho si ho stiahni podľa vlastnej konfigurácie. Čím vyššia je úroveň kvantizácie, tým väčší súbor a tým vyššia presnosť modelu.

llama.cpp Nasadenie modelu DeepSeek-R1

Spustite nasledujúci príkaz v adresári súborov DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Prihlásenie je viditeľné.

Ako je uvedené nižšie:

Otvorte ho v prehliadačihttp://127.0.0.1:8080/Adresa sa testuje, ako je uvedené nižšie:

Priložená je konfigurácia bežiacich parametrov:Prihlásenie na hypertextový odkaz je viditeľné.

Malý · Zverejnené 5. 3. 2025 10:48:53

Komunita AI modelov

Oficiálna stránka Hugging Face:https://huggingface.co/
Domáce zrkadlo s objímajúcou tvárou:https://hf-mirror.com/
Magické zladenie modelscope:https://www.modelscope.cn/

[AI] (7) Použiť llama.cpp na nasadenie modelu DeepSeek-R1 lokálne

Súvisiace príspevky

Zobrazené sekcie