[AI] (7) Utilizzare llama.cpp per distribuire il modello DeepSeek-R1 on-premises

Piccola feccia · Pubblicato su 07/02/2025 13:58:06

llama.cpp Introduzione

Inference Il modello LLaMA di Meta (e altri) usando puro C/C++. L'obiettivo principale llama.cpp abilitare l'inferenza LLM su vari hardware (on-premises e cloud) con una configurazione minima e prestazioni all'avanguardia.

Implementazione pura in C/C++ senza dipendenze
Apple silicon è di altissimo livello – ottimizzato con framework ARM NEON, Accelerate e Metal
AVX, AVX2, AVX512 e AMX supportano architetture x86
Quantizzazione intera a 1,5 bit, 2 bit, 3 bit, 4 bit, 5 bit, 6 bit e 8 bit per inferenze più rapide e ridotto uso della memoria
Core CUDA personalizzati per eseguire LLM su GPU NVIDIA (GPU AMD tramite HIP e GPU MTT Moore Threads tramite MUSA)
Supporto backend di Vulkan e SYCL
Inferenza ibrida CPU+GPU, che accelera parzialmente modelli superiori alla capacità totale della VRAM

Indirizzo Github:Il login del link ipertestuale è visibile.
Indirizzo di download:Il login del link ipertestuale è visibile.

Scarica llama.cpp

Per prima cosa, scarica la versione corrispondente del software llama.cpp in base alla configurazione hardware del tuo computer, come mostrato nella figura sottostante:

AVX supporta il funzionamento a 256 bit di larghezza.
AVX2 supporta anche operazioni a 256 bit, ma aggiunge il supporto per operazioni intere oltre ad alcune istruzioni aggiuntive.
L'AVX-512 supporta operazioni a 512 bit, offrendo maggiore parallelismo e prestazioni, specialmente quando si tratta di grandi quantità di dati o operazioni in virgola mobile.

Il mio computer funziona solo con CPU e supporta il set di istruzioni avx512, quindi scarica la versione "" e l'indirizzo di download:Il login del link ipertestuale è visibile.Dopo il download, scomprimi suD:\llama-b4658-bin-win-avx512-x64Directory.

Scarica il modello DeepSeek-R1

Indirizzo di download:Il login del link ipertestuale è visibile.Questo articolo inizia con "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPer esempio.

Scaricalo semplicemente secondo la tua configurazione. Più alto è il livello di quantizzazione, più grande è il file e maggiore è la precisione del modello.

llama.cpp Implementazione del modello DeepSeek-R1

Esegui il seguente comando nella directory file DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

L'accesso è visibile.

Come mostrato di seguito:

Aprilo usando un browserhttp://127.0.0.1:8080/L'indirizzo viene testato come mostrato di seguito:

Allegata è la configurazione dei parametri di corrimento:Il login del link ipertestuale è visibile.

Piccola feccia · Pubblicato su 05/03/2025 10:48:53

Comunità dei modelli AI

Sito ufficiale di Abbracciare il Viso:https://huggingface.co/
Specchio domestico con viso abbracciante:https://hf-mirror.com/
Modelscope Magic Matching:https://www.modelscope.cn/

[AI] (7) Utilizzare llama.cpp per distribuire il modello DeepSeek-R1 on-premises

Post correlati

Sezioni visualizzate