[AI] (7) Uporabiti llama.cpp za lokalno uvedbo modela DeepSeek-R1

Mala drhal · Objavljeno na 7. 02. 2025 13:58:06

llama.cpp Uvod

Inference Meta-jev LLaMA model (in drugi) uporablja čisti C/C++. Glavni cilj llama.cpp omogočiti sklepanje LLM na različnih strojnih napravah (lokalno in v oblaku) z minimalno nastavitvijo in najsodobnejšimi zmogljivostmi.

Čista implementacija v C/C++ brez odvisnosti
Apple silicij je vrhunski – optimiziran z ogrodji ARM NEON, Accelerate in Metal
AVX, AVX2, AVX512 in AMX podpirajo arhitekture x86
1,5-bitna, 2-bitna, 3-bitna, 4-bitna, 5-bitna, 6-bitna in 8-bitna celoštevilska kvantizacija za hitrejše sklepanje in zmanjšano porabo pomnilnika
Prilagojena CUDA jedra za zagon LLM-jev na NVIDIA GPU-jih (AMD GPU-ji preko HIP in Moore Threads, MTT GPU-ji preko MUSA)
Podpora za Vulkan in SYCL backend
Hibridna inferenca CPU+GPU, delno pospeševanje modelov, večjih od skupne kapacitete VRAM

Github naslov:Prijava do hiperpovezave je vidna.
Naslov za prenos:Prijava do hiperpovezave je vidna.

Prenesi llama.cpp

Najprej prenesite ustrezno različico programske opreme llama.cpp glede na strojno konfiguracijo vašega računalnika, kot je prikazano na spodnji sliki:

AVX podpira delovanje v širini 256 bitov.
AVX2 podpira tudi operacije širine 256 bitov, vendar dodaja podporo za celoštevilske operacije ter nekaj dodatnih ukazov.
AVX-512 podpira operacije širine 512 bitov, kar omogoča povečano vzporednost in zmogljivost, zlasti pri obdelavi velikih količin podatkov ali operacij s plavajočo vejico.

Moj računalnik deluje na čistem CPU in podpira nabor ukazov avx512, zato prenesite različico "" z naslovom za prenos:Prijava do hiperpovezave je vidna.Ko je prenos končan, ga razpakirajte naD:\llama-b4658-bin-win-avx512-x64Direktorij.

Prenesite model DeepSeek-R1

Naslov za prenos:Prijava do hiperpovezave je vidna.Ta članek se začne z "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNa primer.

Preprosto ga prenesite glede na svojo konfiguracijo. Višja kot je stopnja kvantizacije, večja je datoteka in natančnost modela večja.

llama.cpp Uvedba modela DeepSeek-R1

Zaženite naslednji ukaz v mapi datotek DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Prijava je vidna.

Kot je prikazano spodaj:

Odpri ga v brskalnikuhttp://127.0.0.1:8080/Naslov se testira, kot je prikazano spodaj:

Priložena je konfiguracija tekočih parametrov:Prijava do hiperpovezave je vidna.

Mala drhal · Objavljeno na 5. 03. 2025 10:48:53

Skupnost modelov umetne inteligence

Uradna spletna stran Hugging Face:https://huggingface.co/
Domače ogledalo z objemajočim obrazom:https://hf-mirror.com/
Modelscope za čarobno ujemanje:https://www.modelscope.cn/

[AI] (7) Uporabiti llama.cpp za lokalno uvedbo modela DeepSeek-R1

Sorodne objave

Ogledi odsekov