llama.cpp Introduzione
Inference Il modello LLaMA di Meta (e altri) usando puro C/C++. L'obiettivo principale llama.cpp abilitare l'inferenza LLM su vari hardware (on-premises e cloud) con una configurazione minima e prestazioni all'avanguardia.
- Implementazione pura in C/C++ senza dipendenze
- Apple silicon è di altissimo livello – ottimizzato con framework ARM NEON, Accelerate e Metal
- AVX, AVX2, AVX512 e AMX supportano architetture x86
- Quantizzazione intera a 1,5 bit, 2 bit, 3 bit, 4 bit, 5 bit, 6 bit e 8 bit per inferenze più rapide e ridotto uso della memoria
- Core CUDA personalizzati per eseguire LLM su GPU NVIDIA (GPU AMD tramite HIP e GPU MTT Moore Threads tramite MUSA)
- Supporto backend di Vulkan e SYCL
- Inferenza ibrida CPU+GPU, che accelera parzialmente modelli superiori alla capacità totale della VRAM
Indirizzo Github:Il login del link ipertestuale è visibile. Indirizzo di download:Il login del link ipertestuale è visibile.
Scarica llama.cpp
Per prima cosa, scarica la versione corrispondente del software llama.cpp in base alla configurazione hardware del tuo computer, come mostrato nella figura sottostante:
AVX supporta il funzionamento a 256 bit di larghezza. AVX2 supporta anche operazioni a 256 bit, ma aggiunge il supporto per operazioni intere oltre ad alcune istruzioni aggiuntive. L'AVX-512 supporta operazioni a 512 bit, offrendo maggiore parallelismo e prestazioni, specialmente quando si tratta di grandi quantità di dati o operazioni in virgola mobile.
Il mio computer funziona solo con CPU e supporta il set di istruzioni avx512, quindi scarica la versione "" e l'indirizzo di download:Il login del link ipertestuale è visibile.Dopo il download, scomprimi suD:\llama-b4658-bin-win-avx512-x64Directory.
Scarica il modello DeepSeek-R1
Indirizzo di download:Il login del link ipertestuale è visibile.Questo articolo inizia con "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPer esempio.
Scaricalo semplicemente secondo la tua configurazione. Più alto è il livello di quantizzazione, più grande è il file e maggiore è la precisione del modello.
llama.cpp Implementazione del modello DeepSeek-R1
Esegui il seguente comando nella directory file DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:
Come mostrato di seguito:
Aprilo usando un browserhttp://127.0.0.1:8080/L'indirizzo viene testato come mostrato di seguito:
Allegata è la configurazione dei parametri di corrimento:Il login del link ipertestuale è visibile.
|