llama.cpp Introduktion
Inference Metas LLaMA-modell (och andra) med ren C/C++. Huvudmålet llama.cpp att möjliggöra LLM-inferens på olika hårdvara (lokalt och i molnet) med minimal installation och toppmodern prestanda.
- Ren C/C++-implementation utan beroenden
- Apples kisel är förstklassigt – optimerat med ARM NEON, Accelerate och Metal-ramverk
- AVX, AVX2, AVX512 och AMX stödjer x86-arkitekturer
- 1,5-bitars, 2-bitars, 3-bitars, 4-bitars, 5-bitars, 6-bitars och 8-bitars heltalskvantisering för snabbare inferenser och minskad minnesanvändning
- Anpassade CUDA-kärnor för att köra LLM på NVIDIA-GPU:er (AMD-GPU:er via HIP och Moore Threads MTT-GPU:er via MUSA)
- Backend-stöd för Vulkan och SYCL
- CPU+GPU-hybridinferens, delvis accelererande modeller större än den totala VRAM-kapaciteten
Github-adress:Inloggningen med hyperlänken är synlig. Nedladdningsadress:Inloggningen med hyperlänken är synlig.
Ladda ner llama.cpp
Ladda först ner motsvarande version av llama.cpp-programvaran enligt din dators hårdvarukonfiguration, som visas i figuren nedan:
AVX stödjer 256-bitars bred drift. AVX2 stöder också 256-bitars operationer, men lägger till stöd för heltalsoperationer samt några ytterligare instruktioner. AVX-512 stöder 512-bitars operationer i bredd, vilket ger ökad parallellism och prestanda, särskilt vid hantering av stora datamängder eller flyttalsoperationer.
Min dator körs på ren CPU och stöder avx512-instruktionsuppsättningen, så ladda ner ""-versionen, nedladdningsadress:Inloggningen med hyperlänken är synlig.När nedladdningen är klar, packa upp den tillD:\llama-b4658-bin-win-avx512-x64Katalog.
Ladda ner DeepSeek-R1-modellen
Nedladdningsadress:Inloggningen med hyperlänken är synlig.Den här artikeln börjar med "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufTill exempel.
Ladda bara ner det enligt din egen konfiguration. Ju högre kvantiseringsnivå, desto större fil och desto högre noggrannhet i modellen.
llama.cpp Implementera DeepSeek-R1-modellen
Kör följande kommando i filkatalogen DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Som visas nedan:
Öppna den med en webbläsarehttp://127.0.0.1:8080/Adressen testas enligt nedan:
Bifogad är konfigurationen av löpande parameter:Inloggningen med hyperlänken är synlig.
|