| Variabile | Valore predefinito | Descrizione + Effetto + Scenario |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Il login del link ipertestuale è visibile." | Configura l'host e lo schema per il server Ollama. Effetto: Determina l'URL utilizzato per connettersi al server Ollama. Scenario: Utile quando si implementa Ollama in un ambiente distribuito o quando è necessario esporre il servizio su un'interfaccia di rete specifica. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Configura origini consentite per CORS. Effetto: Controlla quali origini possono effettuare richieste al server Ollama. Scenario: Fondamentale quando si integra Ollama con applicazioni web per prevenire accessi non autorizzati da domini diversi. |
| OLLAMA_MODELS | $HOME/.ollama/models | Imposta il percorso verso la directory dei modelli. Effetto: Determina da dove vengono memorizzati e caricati i file modello. Scenario: Utile per gestire lo spazio su disco su diversi dischi o per configurare repository di modelli condivisi in ambienti multiutente. |
| OLLAMA_KEEP_ALIVE | 5 minuti | Stabilisce quanto tempo i modelli rimangono carichi in memoria. Effetto: Controlla la durata dei modelli che rimangono in memoria dopo l'uso. Scenario: durate più lunghe migliorano i tempi di risposta per le query frequenti ma aumentano l'uso della memoria. Durate più brevi liberano risorse ma possono aumentare i tempi di risposta iniziali. |
| OLLAMA_DEBUG | false | Abilita ulteriori informazioni di debug. Effetto: Aumenta la verbosità dell'output di logging e debug. Scenario: Prezioso per risolvere problemi o comprendere il comportamento del sistema durante lo sviluppo o la distribuzione. |
| OLLAMA_FLASH_ATTENTION | false | Attiva la funzione sperimentale di attenzione lampo. Effetto: Attiva un'ottimizzazione sperimentale per i meccanismi di attenzione. Scenario: Può potenzialmente migliorare le prestazioni su hardware compatibile ma può introdurre instabilità. |
| OLLAMA_NOHISTORY | false | Disabilita la cronologia delle linee di lettura. Effetto: Impedisce di salvare la cronologia dei comandi. Scenario: Utile in ambienti sensibili alla sicurezza dove la cronologia dei comandi non dovrebbe essere mantenuta. |
| OLLAMA_NOPRUNE | false | Disabilita la potatura dei blob di modello all'avvio. Effetto: Conserva tutti i blob dei modelli, potenzialmente aumentando l'uso del disco. Scenario: Utile quando devi mantenere tutte le versioni dei modelli per compatibilità o per motivi di rollback. |
| OLLAMA_SCHED_SPREAD | false | Permette di programmare i modelli su tutte le GPU. Effetto: Consente l'uso multi-GPU per l'inferenza del modello. Scenario: Vantaggioso in ambienti di calcolo ad alte prestazioni con più GPU per massimizzare l'utilizzo hardware. |
| OLLAMA_INTEL_GPU | false | Abilita il rilevamento sperimentale della GPU Intel. Effetto: Permette l'uso di GPU Intel per l'inferenza del modello. Scenario: Utile per le organizzazioni che sfruttano l'hardware delle GPU Intel per carichi di lavoro AI. |
| OLLAMA_LLM_LIBRARY | "" (auto-rilevamento) | Imposta la libreria degli LLM per l'uso. Effetto: Sovrascrive il rilevamento automatico della libreria LLM. Scenario: Utile quando devi forzare una specifica versione o implementazione della libreria per motivi di compatibilità o prestazioni. |
| OLLAMA_TMPDIR | Directory temporaneo predefinito del sistema | Imposta la posizione dei file temporanei. Effetto: determina dove sono memorizzati i file temporanei. Scenario: Importante per gestire le prestazioni di I/O o quando la directory temporanea di sistema ha spazio limitato. |
| CUDA_VISIBLE_DEVICES | Tutti disponibili | Imposta quali dispositivi NVIDIA sono visibili. Effetto: Controlla quali GPU NVIDIA possono essere utilizzate. Scenario: Fondamentale per la gestione dell'allocazione GPU in ambienti multiutente o multiprocesso. |
| HIP_VISIBLE_DEVICES | Tutti disponibili | Imposta quali dispositivi AMD sono visibili. Effetto: Controlla quali GPU AMD possono essere utilizzate. Scenario: simile a CUDA_VISIBLE_DEVICES ma per hardware AMD. |
| OLLAMA_RUNNERS_DIR | Dipendente dal sistema | Imposta la posizione dei corridori. Effetto: determina dove si trovano gli eseguibili runner. Scenario: Importante per deployment personalizzati o quando i runner devono essere isolati dall'applicazione principale. |
| OLLAMA_NUM_PARALLEL | 0 (illimitato) | Imposta il numero di richieste di modello parallelo. Effetto: Controlla la concorrenza dell'inferenza del modello. Scenario: Fondamentale per gestire il carico di sistema e garantire la reattività in ambienti ad alto traffico. |
| OLLAMA_MAX_LOADED_MODELS | 0 (illimitato) | Imposta il numero massimo di modelli caricati. Effetto: Limita il numero di modelli che possono essere caricati simultaneamente. Scenario: Aiuta a gestire l'uso della memoria in ambienti con risorse limitate o con molti modelli diversi. |
| OLLAMA_MAX_QUEUE | 512 | Imposta il numero massimo di richieste in coda. Effetto: Limita la dimensione della coda delle richieste. Scenario: Previene il sovraccarico del sistema durante i picchi di traffico e garantisce un'elaborazione tempestiva delle richieste. |
| OLLAMA_MAX_VRAM | 0 (illimitato) | Imposta un override massimo della VRAM in byte. Effetto: Limita la quantità di VRAM utilizzabile. Scenario: Utile in ambienti GPU condivisi per evitare che un singolo processo monopolizzi la memoria GPU. |