Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 2195|Risposta: 1

[AI] (7) Utilizzare llama.cpp per distribuire il modello DeepSeek-R1 on-premises

[Copiato link]
Pubblicato il 7-2-2025 13:58:06 | | | |
llama.cpp Introduzione

Inference Il modello LLaMA di Meta (e altri) usando puro C/C++. L'obiettivo principale llama.cpp abilitare l'inferenza LLM su vari hardware (on-premises e cloud) con una configurazione minima e prestazioni all'avanguardia.

  • Implementazione pura in C/C++ senza dipendenze
  • Apple silicon è di altissimo livello – ottimizzato con framework ARM NEON, Accelerate e Metal
  • AVX, AVX2, AVX512 e AMX supportano architetture x86
  • Quantizzazione intera a 1,5 bit, 2 bit, 3 bit, 4 bit, 5 bit, 6 bit e 8 bit per inferenze più rapide e ridotto uso della memoria
  • Core CUDA personalizzati per eseguire LLM su GPU NVIDIA (GPU AMD tramite HIP e GPU MTT Moore Threads tramite MUSA)
  • Supporto backend di Vulkan e SYCL
  • Inferenza ibrida CPU+GPU, che accelera parzialmente modelli superiori alla capacità totale della VRAM


Indirizzo Github:Il login del link ipertestuale è visibile.
Indirizzo di download:Il login del link ipertestuale è visibile.

Scarica llama.cpp

Per prima cosa, scarica la versione corrispondente del software llama.cpp in base alla configurazione hardware del tuo computer, come mostrato nella figura sottostante:



AVX supporta il funzionamento a 256 bit di larghezza.
AVX2 supporta anche operazioni a 256 bit, ma aggiunge il supporto per operazioni intere oltre ad alcune istruzioni aggiuntive.
L'AVX-512 supporta operazioni a 512 bit, offrendo maggiore parallelismo e prestazioni, specialmente quando si tratta di grandi quantità di dati o operazioni in virgola mobile.

Il mio computer funziona solo con CPU e supporta il set di istruzioni avx512, quindi scarica la versione "" e l'indirizzo di download:Il login del link ipertestuale è visibile.Dopo il download, scomprimi suD:\llama-b4658-bin-win-avx512-x64Directory.

Scarica il modello DeepSeek-R1

Indirizzo di download:Il login del link ipertestuale è visibile.Questo articolo inizia con "DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufPer esempio.

Scaricalo semplicemente secondo la tua configurazione. Più alto è il livello di quantizzazione, più grande è il file e maggiore è la precisione del modello.

llama.cpp Implementazione del modello DeepSeek-R1

Esegui il seguente comando nella directory file DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.gguf:

Come mostrato di seguito:



Aprilo usando un browserhttp://127.0.0.1:8080/L'indirizzo viene testato come mostrato di seguito:



Allegata è la configurazione dei parametri di corrimento:Il login del link ipertestuale è visibile.




Precedente:Il frontend genera un file .d.ts dal file .js
Prossimo:Come risolvere il problema del pull del modello Ollama
 Padrone di casa| Pubblicato il 5-03-2025 alle 10:48:53 |
Comunità dei modelli AI

Sito ufficiale di Abbracciare il Viso:https://huggingface.co/
Specchio domestico con viso abbracciante:https://hf-mirror.com/
Modelscope Magic Matching:https://www.modelscope.cn/
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com