Ta članek je zrcalni članek strojnega prevajanja, kliknite tukaj za skok na izvirni članek.

Pogled: 2195|Odgovoriti: 1

[AI] (7) Uporabiti llama.cpp za lokalno uvedbo modela DeepSeek-R1

[Kopiraj povezavo]
Objavljeno 7. 2. 2025 ob 13:58:06 | | | |
llama.cpp Uvod

Inference Meta-jev LLaMA model (in drugi) uporablja čisti C/C++. Glavni cilj llama.cpp omogočiti sklepanje LLM na različnih strojnih napravah (lokalno in v oblaku) z minimalno nastavitvijo in najsodobnejšimi zmogljivostmi.

  • Čista implementacija v C/C++ brez odvisnosti
  • Apple silicij je vrhunski – optimiziran z ogrodji ARM NEON, Accelerate in Metal
  • AVX, AVX2, AVX512 in AMX podpirajo arhitekture x86
  • 1,5-bitna, 2-bitna, 3-bitna, 4-bitna, 5-bitna, 6-bitna in 8-bitna celoštevilska kvantizacija za hitrejše sklepanje in zmanjšano porabo pomnilnika
  • Prilagojena CUDA jedra za zagon LLM-jev na NVIDIA GPU-jih (AMD GPU-ji preko HIP in Moore Threads, MTT GPU-ji preko MUSA)
  • Podpora za Vulkan in SYCL backend
  • Hibridna inferenca CPU+GPU, delno pospeševanje modelov, večjih od skupne kapacitete VRAM


Github naslov:Prijava do hiperpovezave je vidna.
Naslov za prenos:Prijava do hiperpovezave je vidna.

Prenesi llama.cpp

Najprej prenesite ustrezno različico programske opreme llama.cpp glede na strojno konfiguracijo vašega računalnika, kot je prikazano na spodnji sliki:



AVX podpira delovanje v širini 256 bitov.
AVX2 podpira tudi operacije širine 256 bitov, vendar dodaja podporo za celoštevilske operacije ter nekaj dodatnih ukazov.
AVX-512 podpira operacije širine 512 bitov, kar omogoča povečano vzporednost in zmogljivost, zlasti pri obdelavi velikih količin podatkov ali operacij s plavajočo vejico.

Moj računalnik deluje na čistem CPU in podpira nabor ukazov avx512, zato prenesite različico "" z naslovom za prenos:Prijava do hiperpovezave je vidna.Ko je prenos končan, ga razpakirajte naD:\llama-b4658-bin-win-avx512-x64Direktorij.

Prenesite model DeepSeek-R1

Naslov za prenos:Prijava do hiperpovezave je vidna.Ta članek se začne z "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufNa primer.

Preprosto ga prenesite glede na svojo konfiguracijo. Višja kot je stopnja kvantizacije, večja je datoteka in natančnost modela večja.

llama.cpp Uvedba modela DeepSeek-R1

Zaženite naslednji ukaz v mapi datotek DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Kot je prikazano spodaj:



Odpri ga v brskalnikuhttp://127.0.0.1:8080/Naslov se testira, kot je prikazano spodaj:



Priložena je konfiguracija tekočih parametrov:Prijava do hiperpovezave je vidna.




Prejšnji:Frontend ustvari .d.ts datoteko iz .js datoteke
Naslednji:Kako rešiti problem vlečenja modela Ollama
 Najemodajalec| Objavljeno 5. 3. 2025 ob 10:48:53 |
Skupnost modelov umetne inteligence

Uradna spletna stran Hugging Face:https://huggingface.co/
Domače ogledalo z objemajočim obrazom:https://hf-mirror.com/
Modelscope za čarobno ujemanje:https://www.modelscope.cn/
Disclaimer:
Vsa programska oprema, programski materiali ali članki, ki jih izdaja Code Farmer Network, so namenjeni zgolj učnim in raziskovalnim namenom; Zgornja vsebina ne sme biti uporabljena v komercialne ali nezakonite namene, sicer uporabniki nosijo vse posledice. Informacije na tej strani prihajajo z interneta, spori glede avtorskih pravic pa nimajo nobene zveze s to stranjo. Zgornjo vsebino morate popolnoma izbrisati z računalnika v 24 urah po prenosu. Če vam je program všeč, podprite pristno programsko opremo, kupite registracijo in pridobite boljše pristne storitve. Če pride do kakršne koli kršitve, nas prosimo kontaktirajte po elektronski pošti.

Mail To:help@itsvse.com