Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 2195|Odpověď: 1

[AI] (7) Použít llama.cpp k nasazení modelu DeepSeek-R1 přímo na místě

[Kopírovat odkaz]
Zveřejněno 7. 2. 2025 13:58:06 | | | |
llama.cpp Úvod

Model LLaMA od Inference Meta (a další) používá čistý C/C++. Hlavním cílem llama.cpp umožnit inferenci LLM na různém hardwaru (lokálně i v cloudu) s minimálním nastavením a špičkovým výkonem.

  • Čistá implementace C/C++ bez závislostí
  • Apple silikon je špičkový – optimalizovaný s rámy ARM NEON, Accelerate a Metal
  • AVX, AVX2, AVX512 a AMX podporují architektury x86
  • 1,5bitová, 2bitová, 3bitová, 4bitová, 5bitová, 6bitová a 8bitová celočíselná kvantizace pro rychlejší inferenci a snížení využití paměti
  • Vlastní CUDA jádra pro běh LLM na NVIDIA GPU (AMD GPU přes HIP a Moore Threads MTT GPU přes MUSA)
  • Podpora backendu Vulkan a SYCL
  • Hybridní inference CPU+GPU, částečně urychlující modely větší než celková kapacita VRAM


Github adresa:Přihlášení k hypertextovému odkazu je viditelné.
Adresa ke stažení:Přihlášení k hypertextovému odkazu je viditelné.

Stáhněte llama.cpp

Nejprve si stáhněte odpovídající verzi softwaru llama.cpp podle hardwarové konfigurace vašeho počítače, jak je znázorněno na obrázku níže:



AVX podporuje provoz široký 256 bitů.
AVX2 také podporuje operace široké 256 bitů, ale přidává podporu pro celočíselné operace a některé další instrukce.
AVX-512 podporuje operace široké 512 bitů, což zajišťuje zvýšenou paralelizmu a výkon, zejména při práci s velkým množstvím dat nebo operací s plovoucí desetinnou řadovou čárkou.

Můj počítač běží čistě na CPU a podporuje instrukční sadu avx512, takže si stáhněte verzi "" a adresu ke stažení:Přihlášení k hypertextovému odkazu je viditelné.Po dokončení stažení ho rozbalte naD:\llama-b4658-bin-win-avx512-x64Adresář.

Stáhněte si model DeepSeek-R1

Adresa ke stažení:Přihlášení k hypertextovému odkazu je viditelné.Tento článek začíná slovy "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNapříklad.

Prostě si ho stáhni podle své vlastní konfigurace. Čím vyšší úroveň kvantizace, tím větší soubor a tím vyšší přesnost modelu.

llama.cpp Nasazení modelu DeepSeek-R1

Spusť následující příkaz v adresáři souborů DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Jak je uvedeno níže:



Otevřete ho v prohlížečihttp://127.0.0.1:8080/Adresa je testována podle níže:



Přiložena je konfigurace běžících parametrů:Přihlášení k hypertextovému odkazu je viditelné.




Předchozí:Frontend generuje .d.ts soubor z .js souboru
Další:Jak vyřešit problém tažení modelu Ollama
 Pronajímatel| Zveřejněno 5. března 2025 10:48:53 |
Komunita AI modelů

Oficiální web Hugging Face:https://huggingface.co/
Domácí zrcadlo s objímající tváří:https://hf-mirror.com/
Magické sladění modelscope:https://www.modelscope.cn/
Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com