Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 2195|Odpoveď: 1

[AI] (7) Použiť llama.cpp na nasadenie modelu DeepSeek-R1 lokálne

[Kopírovať odkaz]
Zverejnené 7. 2. 2025 o 13:58:06 | | | |
llama.cpp Úvod

Model LLaMA od Inference Meta (a ďalšie) využívajúci čistý C/C++. Hlavným cieľom llama.cpp umožniť inferenciu LLM na rôznom hardvéri (lokálne aj v cloude) s minimálnym nastavením a špičkovým výkonom.

  • Čistá implementácia v C/C++ bez závislostí
  • Apple silikón je špičkový – optimalizovaný s ARM NEON, Accelerate a metalovými rámami
  • AVX, AVX2, AVX512 a AMX podporujú architektúry x86
  • 1,5-bitová, 2-bitová, 3-bitová, 4-bitová, 5-bitová, 6-bitová a 8-bitová celočíselná kvantizácia pre rýchlejšiu inferenciu a zníženie využitia pamäte
  • Vlastné CUDA jadrá na spúšťanie LLM na NVIDIA GPU (AMD GPU cez HIP a Moore Thread, MTT GPU cez MUSA)
  • Podpora backendu Vulkan a SYCL
  • Hybridná inferencia CPU+GPU, čiastočné zrýchlenie modelov väčších ako celková kapacita VRAM


Github adresa:Prihlásenie na hypertextový odkaz je viditeľné.
Adresa na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.

Stiahnuť llama.cpp

Najprv si stiahnite zodpovedajúcu verziu llama.cpp softvéru podľa hardvérovej konfigurácie vášho počítača, ako je znázornené na obrázku nižšie:



AVX podporuje prevádzku širokú 256 bitov.
AVX2 tiež podporuje operácie široké 256 bitov, ale pridáva podporu pre celočíselné operácie a niektoré ďalšie inštrukcie.
AVX-512 podporuje operácie široké 512 bitov, čím poskytuje zvýšenú paralelizáciu a výkon, najmä pri spracovaní veľkého množstva dát alebo operácií s pohyblivou desatinnou čiarkou.

Môj počítač beží čisto na CPU a podporuje inštrukčný set avx512, takže si stiahnite verziu "" s adresou na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.Po dokončení sťahovania ho rozbalte naD:\llama-b4658-bin-win-avx512-x64Adresár.

Stiahnite si model DeepSeek-R1

Adresa na stiahnutie:Prihlásenie na hypertextový odkaz je viditeľné.Tento článok začína "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNapríklad.

Jednoducho si ho stiahni podľa vlastnej konfigurácie. Čím vyššia je úroveň kvantizácie, tým väčší súbor a tým vyššia presnosť modelu.

llama.cpp Nasadenie modelu DeepSeek-R1

Spustite nasledujúci príkaz v adresári súborov DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Ako je uvedené nižšie:



Otvorte ho v prehliadačihttp://127.0.0.1:8080/Adresa sa testuje, ako je uvedené nižšie:



Priložená je konfigurácia bežiacich parametrov:Prihlásenie na hypertextový odkaz je viditeľné.




Predchádzajúci:Frontend generuje .d.ts súbor z .js súboru
Budúci:Ako vyriešiť problém ťahania modelu Ollama
 Prenajímateľ| Zverejnené 5.3.2025 10:48:53 |
Komunita AI modelov

Oficiálna stránka Hugging Face:https://huggingface.co/
Domáce zrkadlo s objímajúcou tvárou:https://hf-mirror.com/
Magické zladenie modelscope:https://www.modelscope.cn/
Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com