Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 2195|Svare: 1

[AI] (7) Bruke llama.cpp til å implementere DeepSeek-R1-modellen lokalt

[Kopier lenke]
Publisert 7.2.2025 kl. 13:58:06 | | | |
llama.cpp Introduksjon

Inference Metas LLaMA-modell (og andre) som bruker ren C/C++. Hovedmålet llama.cpp å muliggjøre LLM-inferenser på ulike maskinvare (både lokalt og i skyen) med minimal oppsett og topp moderne ytelse.

  • Ren C/C++-implementering uten avhengigheter
  • Apple-silisium er førsteklasses – optimalisert med ARM NEON, Accelerate og Metal-rammeverk
  • AVX, AVX2, AVX512 og AMX støtter x86-arkitekturer
  • 1,5-bits, 2-bits, 3-bits, 4-bits, 5-bits, 6-bits og 8-bits heltallskvantisering for raskere slutning og redusert minnebruk
  • Egendefinerte CUDA-kjerner for å kjøre LLM-er på NVIDIA GPU-er (AMD-GPUer via HIP og Moore Threads MTT-GPUer via MUSA)
  • Støtte for Vulkan og SYCL backend
  • CPU+GPU hybrid inferens, delvis akselererer modeller større enn den totale VRAM-kapasiteten


Github-adresse:Innloggingen med hyperkoblingen er synlig.
Nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.

Last ned llama.cpp

Først, last ned den tilsvarende versjonen av llama.cpp-programvaren i henhold til maskinvarekonfigurasjonen på datamaskinen din, som vist i figuren nedenfor:



AVX støtter 256-bits bred drift.
AVX2 støtter også 256-bits brede operasjoner, men legger til støtte for heltallsoperasjoner samt noen ekstra instruksjoner.
AVX-512 støtter 512-bits brede operasjoner, noe som gir økt parallellitet og ytelse, spesielt ved håndtering av store datamengder eller flyttallsoperasjoner.

Datamaskinen min kjører på ren CPU og støtter avx512-instruksjonssettet, så last ned """-versjonen, nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.Etter at nedlastingen er fullført, pakk den ut tilD:\llama-b4658-bin-win-avx512-x64Adressebok.

Last ned DeepSeek-R1-modellen

Nedlastingsadresse:Innloggingen med hyperkoblingen er synlig.Denne artikkelen begynner med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufFor eksempel.

Last det bare ned etter din egen konfigurasjon. Jo høyere kvantiseringsnivå, desto større fil, og desto høyere nøyaktighet i modellen.

llama.cpp Ta i bruk DeepSeek-R1-modellen

Kjør følgende kommando i filkatalogen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Som vist nedenfor:



Åpne den i en nettleserhttp://127.0.0.1:8080/Adressen testes som vist nedenfor:



Vedlagt er konfigurasjonen av løpende parametere:Innloggingen med hyperkoblingen er synlig.




Foregående:Frontenden genererer en .d.ts-fil fra .js-filen
Neste:Hvordan løse Olama-modellens pull-problem
 Vert| Publisert 2025-3-5 10:48:53 |
AI-modellfellesskap

Hugging Face offisiell nettside:https://huggingface.co/
Klemmende ansikt hjemmespeil:https://hf-mirror.com/
Magisk tilpasningsmodell:https://www.modelscope.cn/
Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com