Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 2195|Svar: 1

[AI] (7) Brug llama.cpp til at implementere DeepSeek-R1-modellen on-premises

[Kopier link]
Opslået den 7-2-2025 13:58:06 | | | |
llama.cpp Introduktion

Inference Metas LLaMA-model (og andre) bruger ren C/C++. Det primære mål llama.cpp at muliggøre LLM-inferenser på forskellig hardware (både lokalt og i skyen) med minimal opsætning og topmoderne ydeevne.

  • Ren C/C++-implementering uden afhængigheder
  • Apple Silicon er i topklasse – optimeret med ARM NEON, Accelerate og Metal-rammeværk
  • AVX, AVX2, AVX512 og AMX understøtter x86-arkitekturer
  • 1,5-bit, 2-bit, 3-bit, 4-bit, 5-bit, 6-bit og 8-bit heltalskvantisering for hurtigere slutning og reduceret hukommelsesforbrug
  • Brugerdefinerede CUDA-kerner til at køre LLM'er på NVIDIA GPU'er (AMD-GPU'er via HIP og Moore Threads MTT-GPU'er via MUSA)
  • Vulkan og SYCL backend-understøttelse
  • CPU+GPU hybrid inferens, delvist accelererende modeller større end den samlede VRAM-kapacitet


Github-adresse:Hyperlink-login er synlig.
Downloadadresse:Hyperlink-login er synlig.

Download llama.cpp

Først skal du downloade den tilsvarende version af llama.cpp-softwaren i henhold til din computers hardwarekonfiguration, som vist i figuren nedenfor:



AVX understøtter 256-bit bred drift.
AVX2 understøtter også 256-bit brede operationer, men tilføjer understøttelse af heltalsoperationer samt nogle ekstra instruktioner.
AVX-512 understøtter 512-bit brede operationer, hvilket giver øget parallelisme og ydeevne, især ved håndtering af store datamængder eller flydende kommatal-operationer.

Min computer kører udelukkende på CPU og understøtter avx512 instruktionssættet, så download "" versionen, downloadadresse:Hyperlink-login er synlig.Når downloadet er færdigt, skal du pakke det ud tilD:\llama-b4658-bin-win-avx512-x64Mappe.

Download DeepSeek-R1-modellen

Downloadadresse:Hyperlink-login er synlig.Denne artikel begynder med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufFor eksempel.

Download det bare efter din egen konfiguration. Jo højere quantiseringsniveau, desto større fil, og desto højere er modellens nøjagtighed.

llama.cpp Udrul DeepSeek-R1-modellen

Kør følgende kommando i filmappen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Som vist nedenfor:



Åbn den i en browserhttp://127.0.0.1:8080/Adressen testes som vist nedenfor:



Vedhæftet er konfigurationen af løbende parameter:Hyperlink-login er synlig.




Tidligere:Frontenden genererer en .d.ts-fil fra den .js fil
Næste:Sådan løser man Olama-modellens pull-problem
 Udlejer| Opslået den 5-3-2025 10:48:53 |
AI-modelfællesskab

Hugging Face Officiel Hjemmeside:https://huggingface.co/
Krammeansigt Spejl:https://hf-mirror.com/
Magisk Matchningsmodelscope:https://www.modelscope.cn/
Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com