【AI】(3) Tencent Cloud distribuisce DeepSeek-R1 con tutorial HAI

Piccola feccia · Pubblicato su 05/02/2025 21:14:04

Hyper Application Inventor (HAI) è un prodotto di servizi di applicazioni GPU per IA e calcolo scientifico, che offre potenza di calcolo plug-and-play e ambienti comuni per aiutare piccole e medie imprese e sviluppatori a implementare rapidamente gli LLM.

Indirizzo:Il login del link ipertestuale è visibile.

HAI vs server GPU

Ridurre notevolmente la soglia per l'uso dei server cloud GPU, ottimizzare l'esperienza del prodotto da più angolazioni e usarlo già da scatto, come mostrato nella figura sottostante:

Acquista potenza di calcolo HAI

Vai alla pagina di acquisto, seleziona l'immagine dell'ambiente base "Ubuntu 20.04" e configura l'ambiente:Ubuntu 20.04, driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8L'immagine ha già installato il driver per noi, e scegliamo di pagare man mano, come mostrato nella figura sottostante:

Memoria video: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 core
RAM: 40GB

Dopo qualche minuto di attesa, l'istanza viene creata con successo e l'Accelerazione Accademica viene attivata, come mostrato nella figura seguente:

La prima volta che lo usi, devi reimpostare la password e il nome utente di accesso è:ubuntu。 Prova ad accedere al server e controllare le informazioni sui driver GPU NVIDIA con il seguente comando:

L'accesso è visibile.

Come mostrato di seguito:

Installa Ollama

Sito ufficiale di Ollama:Il login del link ipertestuale è visibile.

Accedi al server usando lo strumento Putty e inizia a installare lo strumento Ollama con il seguente comando:

L'accesso è visibile.

L'installazione è completa e il risultato è il seguente:

>>> Installazione di ollama su /usr/local
>>> Download del pacchetto Linux amd64
######################################################################## 100.0%
>>> Creazione di un utente ollama...
>>> Aggiungendo l'utente ollama al gruppo di rendering...
>>> Aggiungere un utente ollama al gruppo video...
>>> Aggiungendo l'utente attuale al gruppo ollama...
>>> Creazione di un servizio sistemato ollama...
>>> Abilitazione e avvio del servizio ollama...
Ho creato il symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Dai un'occhiata al comando version: ollama -v
Vedi il modello attualmente caricato in memoria: ollama ps

Crea una cartella di archiviazione personalizzata con il seguente comando:

L'accesso è visibile.

Modifica l'indirizzo di ascolto predefinito e il percorso di memorizzazione del modello (non puoi modificare la porta predefinita, altrimenti il comando fallirà) e usa i seguenti comandi:

L'accesso è visibile.

Implementare il modello deepseek-r1

Esegui il modello deepseek-r1:8b con il seguente comando:

L'accesso è visibile.

Come mostrato di seguito:

Prova il dialogo come mostrato qui sotto:

Il firewall rilascia la porta TCP 11434 e chiama l'interfaccia HTTP, come mostrato nella figura seguente:

{
  "modelle": [
{
   "name": "deepseek-r1:8b",
   "modello": "deepseek-r1:8b",
   "Dimensione": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "dettagli": {
      "parent_model": "",
      "formato": "gguf",
      "famiglia": "llama",
      "famiglie": [
      "llama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Riferimento:
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.
Il login del link ipertestuale è visibile.

Piccola feccia · Pubblicato su 05/02/2025 21:22:49

Se il modello non riceve richieste o input per un certo periodo di tempo, Ollama termina automaticamente il modello nel cloud center per risparmiare risorse.

Piccola feccia · Pubblicato su 06/02/2025 09:03:57

Elemento di configurazione variabile ambientale Ollama

Variabile	Valore predefinito	Descrizione + Effetto + Scenario
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Il login del link ipertestuale è visibile."	Configura l'host e lo schema per il server Ollama. Effetto: Determina l'URL utilizzato per connettersi al server Ollama. Scenario: Utile quando si implementa Ollama in un ambiente distribuito o quando è necessario esporre il servizio su un'interfaccia di rete specifica.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Configura origini consentite per CORS. Effetto: Controlla quali origini possono effettuare richieste al server Ollama. Scenario: Fondamentale quando si integra Ollama con applicazioni web per prevenire accessi non autorizzati da domini diversi.
OLLAMA_MODELS	$HOME/.ollama/models	Imposta il percorso verso la directory dei modelli. Effetto: Determina da dove vengono memorizzati e caricati i file modello. Scenario: Utile per gestire lo spazio su disco su diversi dischi o per configurare repository di modelli condivisi in ambienti multiutente.
OLLAMA_KEEP_ALIVE	5 minuti	Stabilisce quanto tempo i modelli rimangono carichi in memoria. Effetto: Controlla la durata dei modelli che rimangono in memoria dopo l'uso. Scenario: durate più lunghe migliorano i tempi di risposta per le query frequenti ma aumentano l'uso della memoria. Durate più brevi liberano risorse ma possono aumentare i tempi di risposta iniziali.
OLLAMA_DEBUG	false	Abilita ulteriori informazioni di debug. Effetto: Aumenta la verbosità dell'output di logging e debug. Scenario: Prezioso per risolvere problemi o comprendere il comportamento del sistema durante lo sviluppo o la distribuzione.
OLLAMA_FLASH_ATTENTION	false	Attiva la funzione sperimentale di attenzione lampo. Effetto: Attiva un'ottimizzazione sperimentale per i meccanismi di attenzione. Scenario: Può potenzialmente migliorare le prestazioni su hardware compatibile ma può introdurre instabilità.
OLLAMA_NOHISTORY	false	Disabilita la cronologia delle linee di lettura. Effetto: Impedisce di salvare la cronologia dei comandi. Scenario: Utile in ambienti sensibili alla sicurezza dove la cronologia dei comandi non dovrebbe essere mantenuta.
OLLAMA_NOPRUNE	false	Disabilita la potatura dei blob di modello all'avvio. Effetto: Conserva tutti i blob dei modelli, potenzialmente aumentando l'uso del disco. Scenario: Utile quando devi mantenere tutte le versioni dei modelli per compatibilità o per motivi di rollback.
OLLAMA_SCHED_SPREAD	false	Permette di programmare i modelli su tutte le GPU. Effetto: Consente l'uso multi-GPU per l'inferenza del modello. Scenario: Vantaggioso in ambienti di calcolo ad alte prestazioni con più GPU per massimizzare l'utilizzo hardware.
OLLAMA_INTEL_GPU	false	Abilita il rilevamento sperimentale della GPU Intel. Effetto: Permette l'uso di GPU Intel per l'inferenza del modello. Scenario: Utile per le organizzazioni che sfruttano l'hardware delle GPU Intel per carichi di lavoro AI.
OLLAMA_LLM_LIBRARY	"" (auto-rilevamento)	Imposta la libreria degli LLM per l'uso. Effetto: Sovrascrive il rilevamento automatico della libreria LLM. Scenario: Utile quando devi forzare una specifica versione o implementazione della libreria per motivi di compatibilità o prestazioni.
OLLAMA_TMPDIR	Directory temporaneo predefinito del sistema	Imposta la posizione dei file temporanei. Effetto: determina dove sono memorizzati i file temporanei. Scenario: Importante per gestire le prestazioni di I/O o quando la directory temporanea di sistema ha spazio limitato.
CUDA_VISIBLE_DEVICES	Tutti disponibili	Imposta quali dispositivi NVIDIA sono visibili. Effetto: Controlla quali GPU NVIDIA possono essere utilizzate. Scenario: Fondamentale per la gestione dell'allocazione GPU in ambienti multiutente o multiprocesso.
HIP_VISIBLE_DEVICES	Tutti disponibili	Imposta quali dispositivi AMD sono visibili. Effetto: Controlla quali GPU AMD possono essere utilizzate. Scenario: simile a CUDA_VISIBLE_DEVICES ma per hardware AMD.
OLLAMA_RUNNERS_DIR	Dipendente dal sistema	Imposta la posizione dei corridori. Effetto: determina dove si trovano gli eseguibili runner. Scenario: Importante per deployment personalizzati o quando i runner devono essere isolati dall'applicazione principale.
OLLAMA_NUM_PARALLEL	0 (illimitato)	Imposta il numero di richieste di modello parallelo. Effetto: Controlla la concorrenza dell'inferenza del modello. Scenario: Fondamentale per gestire il carico di sistema e garantire la reattività in ambienti ad alto traffico.
OLLAMA_MAX_LOADED_MODELS	0 (illimitato)	Imposta il numero massimo di modelli caricati. Effetto: Limita il numero di modelli che possono essere caricati simultaneamente. Scenario: Aiuta a gestire l'uso della memoria in ambienti con risorse limitate o con molti modelli diversi.
OLLAMA_MAX_QUEUE	512	Imposta il numero massimo di richieste in coda. Effetto: Limita la dimensione della coda delle richieste. Scenario: Previene il sovraccarico del sistema durante i picchi di traffico e garantisce un'elaborazione tempestiva delle richieste.
OLLAMA_MAX_VRAM	0 (illimitato)	Imposta un override massimo della VRAM in byte. Effetto: Limita la quantità di VRAM utilizzabile. Scenario: Utile in ambienti GPU condivisi per evitare che un singolo processo monopolizzi la memoria GPU.

Fonte:Il login del link ipertestuale è visibile.

$ Ollama aiuta a servire
Inizia ollama

Usage:
  Servizio Ollama [bandiere]

Aliases:
  Servire, iniziare

Flags:
  -h, --aiuto aiuto per servire

Variabili ambientali:
   OLLAMA_DEBUG Mostra informazioni aggiuntive di debug (ad es. OLLAMA_DEBUG=1)
   OLLAMA_HOST Indirizzo IP per il server ollama (predefinito 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE La durata in cui i modelli rimangono caricati in memoria (predefinito "5m")
   OLLAMA_MAX_LOADED_MODELS Numero massimo di modelli caricati per GPU
   OLLAMA_MAX_QUEUE Numero massimo di richieste in coda
   OLLAMA_MODELS Il percorso verso la directory dei modelli
   OLLAMA_NUM_PARALLEL Numero massimo di richieste parallele
   OLLAMA_NOPRUNE Non potare i blob del modello all'avvio
   OLLAMA_ORIGINS Una virgola separata elenco delle origini consentite
   OLLAMA_SCHED_SPREAD Programmare sempre il modello su tutte le GPU
   OLLAMA_TMPDIR Posizione per i file temporanei
   OLLAMA_FLASH_ATTENTION Attivato l'attenzione flash
   OLLAMA_LLM_LIBRARY Imposta la libreria LLM per bypassare l'autorilevamento
   OLLAMA_GPU_OVERHEAD Riserva una porzione di VRAM per GPU (byte)
   OLLAMA_LOAD_TIMEOUT Quanto tempo permettere ai carichi del modello di spegnersi prima di arrendersi (predefinito "5m")

Riferimento:Il login del link ipertestuale è visibile.

Piccola feccia · Pubblicato su 06/02/2025 09:19:49

Comando Ollama

Ollama List: Mostra un elenco di modelli
Mostra Ollama: Mostra informazioni sul modello
Ollama Pull: Modello di Pull
ollama push: modello Push
Ollama CP: copia un modello
ollama rm: Elimina un modello
Ollama Run: Esegui un modello

Piccola feccia · Pubblicato su 06/02/2025 09:33:17

Ottimizzazione del modello, montaggio/etc/systemd/system/ollama.service.d/override.confConfigurazione, aggiungi quanto segue:

L'accesso è visibile.

La configurazione completa è la seguente:

L'accesso è visibile.

Piccola feccia · Pubblicato su 06/02/2025 09:35:26

--prolissoIl parametro viene utilizzato per mostrare la velocità di inferenza (token per secondo). Per esempio:

L'accesso è visibile.

>>> Ciao, chi sei?
<think>

</think>

Ciao! Sono un assistente AI sviluppato indipendentemente da DeepSeek in Cina, e sono felice di servirti!

Durata totale: 489,831897ms
Durata del carico: 24,116423ms
Conteggio di valutazioni dei prompt: 10 token(i)
Durata della valutazione del prompt: 4ms
Tasso di valutazione prompt: 2500,00 token/s
Conteggio valutazioni: 36 token(i)
Durata della valutazione: 460ms
Tasso di valutazione: 78,26 token/s
>>> sono un piccolo bastardo, come mi chiamo?
<think>
Beh, piccolo feccia è il mio nome? Lasciatemi rifletterci bene. Ricordo che da bambino i miei genitori mi chiamavano "Piccolo Feccia" perché la mia famiglia pensava che avessi le orecchie grandi, ma in realtà era tutto
Non è la vera ragione. Forse è perché da bambino mettevo sempre il dito in bocca come spazzatura, quindi mi chiamavano "piccola feccia".

Tuttavia, il nome ora suona un po' strano e non si adatta del tutto allo stile di denominazione della società odierna. Dovrei considerare di rinominarlo con un nome che mi si addica di più. Prima di tutto, devo capire me stesso
I tuoi tratti di personalità e i tuoi interessi, così puoi scegliere un nome che sia significativo che unico.

Mi piace aiutare gli altri e sono bravo ad ascoltare e comunicare, quindi magari scegli un nome con "saggezza", "calore" o "amichevole". Allo stesso tempo, voglio anche riflettere la mia personalità, come ad esempio
Se ti piacciono i libri, la musica o lo sport, puoi incorporare questi elementi nel tuo nome.

Inoltre, devo assicurarmi che il nuovo nome non venga ricordato o frainteso. Questo significa che il nome deve essere unico e riconoscibile, non troppo complesso o troppo ordinario. Posso
Consulta i nomi di alcune figure note per vedere quali hanno sia patrimonio culturale che modernità.

Inoltre, devo considerare se la pronuncia è fluida, se esiste un significato positivo e come viene espressa in diversi contesti. Questo significa che quando si sceglie un nome, non solo suoni bene, ma anche
Deve esserci un significato e un valore dietro.

Infine, devo comunicare con la mia famiglia e i miei amici per assicurarmi che siano felici del nuovo nome e che possa far parte della mia vita. Dopotutto, il nome non è solo
L'identificatore fa parte dell'auto-espressione.

In breve, Xiao Zhao non è il mio vero nome, e ho il diritto di scegliere un nome che mi si addice meglio. Ci vuole tempo e riflessione, ma analizzando attentamente la tua personalità e i tuoi interessi
Oltre al significato del nome, credo che riuscirò a trovare il nome più adatto a me.
</think>

Basandomi su questo processo di pensiero sopra, ho deciso di chiamarmi "Wisdom Star". Il nome riflette sia la mia ingegnosità che il mio calore e la mia speranza, rendendolo perfetto per la mia sessualità personale
Caratteristiche. Allo stesso tempo, la "stella" simboleggia luce e infinite possibilità, ispirandomi a perseguire costantemente il progresso e la crescita.

**Nome definitivo: Stella della Saggezza**

Questo nome non solo si adatta alla mia personalità, ma è anche pieno di energia positiva che mi fa sentire molto orgogliosa e realizzata.

durata totale: 7,600299527s
Durata del carico: 24,37534ms
Conteggio di valutazioni dei prompt: 59 token(i)
Durata della valutazione del prompt: 10ms
Tasso di valutazione prompt: 5900,00 token/s
Numero di valutazioni: 557 gettoni/i
Durata della valutazione: 6,618s
Tasso di valutazione: 84,16 token/s

Piccola feccia · Pubblicato su 06/02/2025 10:22:02

Distribuire modelli ollama con GPU AMD
Ollama-for-AMD:Il login del link ipertestuale è visibile.

Riferimento:Il login del link ipertestuale è visibile.

Piccola feccia · Pubblicato su 06/02/2025 13:26:17

Esegui il modello deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Gio 6 feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versione driver: 525.105.17 Versione CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistenza del nome GPU-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Prestazioni Temperatura della Ventola Pwr:Utilizzo/Cappo|       Utilizzo della memoria | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Su | 0000000:00:08.0 Spento |                Off |
| N/A 65C P0 205W / 300W |  21822 MiB / 32768 MiB |    89% Default |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processi: |
|  GPU GI CI PID Tipo Nome processo GPU Memoria |
|       Utilizzo ID ID |
|=============================================================================|
| 0 N/D N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# Ollama Show Deepseek-R1:32B
  Modello
Architettura QWEN2
parametri 32.8B
Lunghezza del contesto 131072
Lunghezza di incorporamento 5120
Quantizzazione Q4_K_M

  Parametri
ferma "<|inizio frase|>"
ferma "<|fine frase|>"
ferma "<|User|>"
ferma "<|Assistente|>"

  Licenza
Licenza MIT
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NOME ID DIMENSIONE PROCESSORE FINO A
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Piccola feccia · Pubblicato su 08/02/2025 08:34:18

Come risolvere il problema del pull del modello Ollama
https://www.itsvse.com/thread-10939-1-1.html

Piccola feccia · Pubblicato su 13/02/2025 09:25:04

Sperimenta il modello DeepSeek R1 32b sul Jetson AGX Orin (32G):Il login del link ipertestuale è visibile.
Jetson utilizza grandi modelli linguistici:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud distribuisce DeepSeek-R1 con tutorial HAI

Post correlati