Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 2195|Antwoord: 1

[AI] (7) Gebruik llama.cpp om het DeepSeek-R1-model on-premises uit te rollen

[Link kopiëren]
Geplaatst op 7-2-2025 13:58:06 | | | |
llama.cpp Inleiding

Inference Meta's LLaMA-model (en andere) met puur gebruik van C/C++. Het primaire doel llama.cpp om LLM-inferentie mogelijk te maken op diverse hardware (zowel lokaal als in de cloud) met minimale opstelling en state-of-the-art prestaties.

  • Pure C/C++-implementatie zonder afhankelijkheden
  • Apple-silicium is van topkwaliteit – geoptimaliseerd met ARM NEON, Accelerate en Metal-frameworks
  • AVX, AVX2, AVX512 en AMX ondersteunen x86-architecturen
  • 1,5-bits, 2-bits, 3-bits, 4-bits, 5-bits, 6-bits en 8-bits integer-quantisatie voor snellere inferentie en verminderd geheugengebruik
  • Aangepaste CUDA-cores voor het draaien van LLM's op NVIDIA GPU's (AMD-GPU's via HIP en Moore Threads MTT GPU's via MUSA)
  • Ondersteuning voor Vulkan en SYCL backend
  • CPU+GPU hybride inferentie, waarbij modellen die groter zijn dan de totale VRAM-capaciteit gedeeltelijk versnelt


Github-adres:De hyperlink-login is zichtbaar.
Downloadadres:De hyperlink-login is zichtbaar.

Download llama.cpp

Download eerst de bijbehorende versie van de llama.cpp-software volgens de hardwareconfiguratie van je computer, zoals te zien is in de onderstaande figuur:



AVX ondersteunt 256-bit brede werking.
AVX2 ondersteunt ook bewerkingen van 256 bits, maar voegt ondersteuning toe voor integer-operaties en enkele extra instructies.
De AVX-512 ondersteunt 512-bits brede bewerkingen, wat zorgt voor meer paralleliteit en prestaties, vooral bij het verwerken van grote hoeveelheden data of floating-point-operaties.

Mijn computer draait op een pure CPU en ondersteunt de avx512 instructieset, dus download de "" versie, downloadadres:De hyperlink-login is zichtbaar.Nadat de download is voltooid, pak je het uitD:\llama-b4658-bin-win-avx512-x64Map.

Download het DeepSeek-R1 model

Downloadadres:De hyperlink-login is zichtbaar.Dit artikel begint met "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufBijvoorbeeld.

Download het gewoon volgens je eigen configuratie. Hoe hoger het quantisatieniveau, hoe groter het bestand en hoe hoger de nauwkeurigheid van het model.

llama.cpp Zet het DeepSeek-R1-model in

Voer het volgende commando uit in de DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf bestandsmap:

Zoals hieronder getoond:



Open het via een browserhttp://127.0.0.1:8080/Het adres wordt getest zoals hieronder weergegeven:



Bijgevoegd is de configuratie van de running parameter:De hyperlink-login is zichtbaar.




Vorig:De frontend genereert een .d.ts bestand uit het .js-bestand
Volgend:Hoe het Ollama model pull probleem op te lossen
 Huisbaas| Geplaatst op 5-3-2025 10:48:53 |
AI-modelgemeenschap

Officiële website van Hugging Face:https://huggingface.co/
Omhelzing Gezicht Huiselijke Spiegel:https://hf-mirror.com/
Magic Matching modelscoop:https://www.modelscope.cn/
Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com