llama.cpp Introducere
Inference modelul LLaMA al Meta (și altele) folosind C/C++ pur. Scopul principal llama.cpp de a permite inferența LLM pe diverse hardware (on-premises și în cloud) cu configurare minimă și performanțe de ultimă generație.
- Implementare C/C++ pură, fără dependențe
- Apple silicon este de top – optimizat cu framework-uri ARM NEON, Accelerate și Metal
- AVX, AVX2, AVX512 și AMX suportă arhitecturi x86
- Cuantizare întregă pe 1,5 biți, 2 biți, 3 biți, 4 biți, 5 biți, 6 biți și 8 biți pentru inferență mai rapidă și reducerea consumului memoriei
- Nuclee CUDA personalizate pentru rularea LLM-urilor pe plăci grafice NVIDIA (plăci AMD prin HIP și plăci Moore Threads MTT prin MUSA)
- Suport backend pentru Vulkan și SYCL
- Inferența hibridă CPU+GPU, accelerând parțial modelele mai mari decât capacitatea totală a VRAM
Adresă Github:Autentificarea cu hyperlink este vizibilă. Adresă de descărcare:Autentificarea cu hyperlink este vizibilă.
Descarcă llama.cpp
Mai întâi, descarcă versiunea corespunzătoare a software-ului llama.cpp conform configurației hardware a calculatorului tău, așa cum este ilustrat în figura de mai jos:
AVX suportă funcționare pe lățimea de 256 de biți. AVX2 suportă, de asemenea, operații pe 256 de biți, dar adaugă suport pentru operațiuni întregi, precum și unele instrucțiuni suplimentare. AVX-512 suportă operații pe 512 biți, oferind paralelism și performanță sporite, mai ales când se lucrează cu cantități mari de date sau operații în virgulă mobilă.
Calculatorul meu funcționează doar pe CPU și suportă setul de instrucțiuni avx512, așa că descarcă versiunea "", adresa de descărcare:Autentificarea cu hyperlink este vizibilă.După ce descărcarea s-a terminat, decomprimă-l laD:\llama-b4658-bin-win-avx512-x64Director.
Descarcă modelul DeepSeek-R1
Adresă de descărcare:Autentificarea cu hyperlink este vizibilă.Acest articol începe cu "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufDe exemplu.
Doar descarcă-l conform configurației tale. Cu cât nivelul de cuantificare este mai mare, cu atât fișierul este mai mare și cu atât acuratețea modelului este mai mare.
llama.cpp Implementarea modelului DeepSeek-R1
Rulați următoarea comandă în directorul de fișiere DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Așa cum se arată mai jos:
Deschide-l folosind un browserhttp://127.0.0.1:8080/Adresa este testată așa cum se arată mai jos:
Atașată este configurația parametrilor de rulare:Autentificarea cu hyperlink este vizibilă.
|