llama.cpp Úvod
Model LLaMA od Inference Meta (a další) používá čistý C/C++. Hlavním cílem llama.cpp umožnit inferenci LLM na různém hardwaru (lokálně i v cloudu) s minimálním nastavením a špičkovým výkonem.
- Čistá implementace C/C++ bez závislostí
- Apple silikon je špičkový – optimalizovaný s rámy ARM NEON, Accelerate a Metal
- AVX, AVX2, AVX512 a AMX podporují architektury x86
- 1,5bitová, 2bitová, 3bitová, 4bitová, 5bitová, 6bitová a 8bitová celočíselná kvantizace pro rychlejší inferenci a snížení využití paměti
- Vlastní CUDA jádra pro běh LLM na NVIDIA GPU (AMD GPU přes HIP a Moore Threads MTT GPU přes MUSA)
- Podpora backendu Vulkan a SYCL
- Hybridní inference CPU+GPU, částečně urychlující modely větší než celková kapacita VRAM
Github adresa:Přihlášení k hypertextovému odkazu je viditelné. Adresa ke stažení:Přihlášení k hypertextovému odkazu je viditelné.
Stáhněte llama.cpp
Nejprve si stáhněte odpovídající verzi softwaru llama.cpp podle hardwarové konfigurace vašeho počítače, jak je znázorněno na obrázku níže:
AVX podporuje provoz široký 256 bitů. AVX2 také podporuje operace široké 256 bitů, ale přidává podporu pro celočíselné operace a některé další instrukce. AVX-512 podporuje operace široké 512 bitů, což zajišťuje zvýšenou paralelizmu a výkon, zejména při práci s velkým množstvím dat nebo operací s plovoucí desetinnou řadovou čárkou.
Můj počítač běží čistě na CPU a podporuje instrukční sadu avx512, takže si stáhněte verzi "" a adresu ke stažení:Přihlášení k hypertextovému odkazu je viditelné.Po dokončení stažení ho rozbalte naD:\llama-b4658-bin-win-avx512-x64Adresář.
Stáhněte si model DeepSeek-R1
Adresa ke stažení:Přihlášení k hypertextovému odkazu je viditelné.Tento článek začíná slovy "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNapříklad.
Prostě si ho stáhni podle své vlastní konfigurace. Čím vyšší úroveň kvantizace, tím větší soubor a tím vyšší přesnost modelu.
llama.cpp Nasazení modelu DeepSeek-R1
Spusť následující příkaz v adresáři souborů DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Jak je uvedeno níže:
Otevřete ho v prohlížečihttp://127.0.0.1:8080/Adresa je testována podle níže:
Přiložena je konfigurace běžících parametrů:Přihlášení k hypertextovému odkazu je viditelné.
|