Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 2195|Svar: 1

[AI] (7) Använd llama.cpp för att distribuera DeepSeek-R1-modellen lokalt

[Kopiera länk]
Publicerad den 2025-2-7 13:58:06 | | | |
llama.cpp Introduktion

Inference Metas LLaMA-modell (och andra) med ren C/C++. Huvudmålet llama.cpp att möjliggöra LLM-inferens på olika hårdvara (lokalt och i molnet) med minimal installation och toppmodern prestanda.

  • Ren C/C++-implementation utan beroenden
  • Apples kisel är förstklassigt – optimerat med ARM NEON, Accelerate och Metal-ramverk
  • AVX, AVX2, AVX512 och AMX stödjer x86-arkitekturer
  • 1,5-bitars, 2-bitars, 3-bitars, 4-bitars, 5-bitars, 6-bitars och 8-bitars heltalskvantisering för snabbare inferenser och minskad minnesanvändning
  • Anpassade CUDA-kärnor för att köra LLM på NVIDIA-GPU:er (AMD-GPU:er via HIP och Moore Threads MTT-GPU:er via MUSA)
  • Backend-stöd för Vulkan och SYCL
  • CPU+GPU-hybridinferens, delvis accelererande modeller större än den totala VRAM-kapaciteten


Github-adress:Inloggningen med hyperlänken är synlig.
Nedladdningsadress:Inloggningen med hyperlänken är synlig.

Ladda ner llama.cpp

Ladda först ner motsvarande version av llama.cpp-programvaran enligt din dators hårdvarukonfiguration, som visas i figuren nedan:



AVX stödjer 256-bitars bred drift.
AVX2 stöder också 256-bitars operationer, men lägger till stöd för heltalsoperationer samt några ytterligare instruktioner.
AVX-512 stöder 512-bitars operationer i bredd, vilket ger ökad parallellism och prestanda, särskilt vid hantering av stora datamängder eller flyttalsoperationer.

Min dator körs på ren CPU och stöder avx512-instruktionsuppsättningen, så ladda ner ""-versionen, nedladdningsadress:Inloggningen med hyperlänken är synlig.När nedladdningen är klar, packa upp den tillD:\llama-b4658-bin-win-avx512-x64Katalog.

Ladda ner DeepSeek-R1-modellen

Nedladdningsadress:Inloggningen med hyperlänken är synlig.Den här artikeln börjar med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufTill exempel.

Ladda bara ner det enligt din egen konfiguration. Ju högre kvantiseringsnivå, desto större fil och desto högre noggrannhet i modellen.

llama.cpp Implementera DeepSeek-R1-modellen

Kör följande kommando i filkatalogen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Som visas nedan:



Öppna den med en webbläsarehttp://127.0.0.1:8080/Adressen testas enligt nedan:



Bifogad är konfigurationen av löpande parameter:Inloggningen med hyperlänken är synlig.




Föregående:Frontend genererar en .d.ts fil från den .js filen
Nästa:Hur man löser problemet med Ollama-modellens pull
 Hyresvärd| Publicerad den 2025-3-5 10:48:53 |
AI-modellgemenskap

Famging Face officiella webbplats:https://huggingface.co/
Kramande ansikte Hemspegel:https://hf-mirror.com/
Magisk matchningsmodell:https://www.modelscope.cn/
Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com