[AI] (7) Použít llama.cpp k nasazení modelu DeepSeek-R1 přímo na místě

Malý hajzl · Zveřejněno 07.02.2025 13:58:06

llama.cpp Úvod

Model LLaMA od Inference Meta (a další) používá čistý C/C++. Hlavním cílem llama.cpp umožnit inferenci LLM na různém hardwaru (lokálně i v cloudu) s minimálním nastavením a špičkovým výkonem.

Čistá implementace C/C++ bez závislostí
Apple silikon je špičkový – optimalizovaný s rámy ARM NEON, Accelerate a Metal
AVX, AVX2, AVX512 a AMX podporují architektury x86
1,5bitová, 2bitová, 3bitová, 4bitová, 5bitová, 6bitová a 8bitová celočíselná kvantizace pro rychlejší inferenci a snížení využití paměti
Vlastní CUDA jádra pro běh LLM na NVIDIA GPU (AMD GPU přes HIP a Moore Threads MTT GPU přes MUSA)
Podpora backendu Vulkan a SYCL
Hybridní inference CPU+GPU, částečně urychlující modely větší než celková kapacita VRAM

Github adresa:Přihlášení k hypertextovému odkazu je viditelné.
Adresa ke stažení:Přihlášení k hypertextovému odkazu je viditelné.

Stáhněte llama.cpp

Nejprve si stáhněte odpovídající verzi softwaru llama.cpp podle hardwarové konfigurace vašeho počítače, jak je znázorněno na obrázku níže:

AVX podporuje provoz široký 256 bitů.
AVX2 také podporuje operace široké 256 bitů, ale přidává podporu pro celočíselné operace a některé další instrukce.
AVX-512 podporuje operace široké 512 bitů, což zajišťuje zvýšenou paralelizmu a výkon, zejména při práci s velkým množstvím dat nebo operací s plovoucí desetinnou řadovou čárkou.

Můj počítač běží čistě na CPU a podporuje instrukční sadu avx512, takže si stáhněte verzi "" a adresu ke stažení:Přihlášení k hypertextovému odkazu je viditelné.Po dokončení stažení ho rozbalte naD:\llama-b4658-bin-win-avx512-x64Adresář.

Stáhněte si model DeepSeek-R1

Adresa ke stažení:Přihlášení k hypertextovému odkazu je viditelné.Tento článek začíná slovy "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNapříklad.

Prostě si ho stáhni podle své vlastní konfigurace. Čím vyšší úroveň kvantizace, tím větší soubor a tím vyšší přesnost modelu.

llama.cpp Nasazení modelu DeepSeek-R1

Spusť následující příkaz v adresáři souborů DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Přihlášení je viditelné.

Jak je uvedeno níže:

Otevřete ho v prohlížečihttp://127.0.0.1:8080/Adresa je testována podle níže:

Přiložena je konfigurace běžících parametrů:Přihlášení k hypertextovému odkazu je viditelné.

Malý hajzl · Zveřejněno 05.03.2025 10:48:53

Komunita AI modelů

Oficiální web Hugging Face:https://huggingface.co/
Domácí zrcadlo s objímající tváří:https://hf-mirror.com/
Magické sladění modelscope:https://www.modelscope.cn/

[AI] (7) Použít llama.cpp k nasazení modelu DeepSeek-R1 přímo na místě

Související příspěvky

Prohlížené sekce