| Proměnná | Výchozí hodnota | Popis + Efekt + Scénář |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Přihlášení k hypertextovému odkazu je viditelné." | Konfiguruje hostitele a schéma pro server Ollama. Efekt: Určuje URL použitou pro připojení k serveru Ollama. Scénář: Užitečné při nasazení Ollama v distribuovaném prostředí nebo když potřebujete službu zpřístupnit na konkrétním síťovém rozhraní. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Konfiguruje povolené počátky pro CORS. Efekt: Ovládá, které zdroje mohou posílat požadavky na server Ollama. Scénář: Kritické při integraci Ollamy s webovými aplikacemi, aby se zabránilo neoprávněnému přístupu z různých domén. |
| OLLAMA_MODELS | $HOME/.ollama/models | Nastaví cestu do adresáře modelů. Efekt: Určuje, odkud jsou soubory modelů uloženy a načítány. Scénář: Užitečné pro správu diskového prostoru na různých discích nebo pro nastavení sdílených modelových repozitářů v prostředí s více uživateli. |
| OLLAMA_KEEP_ALIVE | 5 minut | Nastavuje, jak dlouho zůstávají modely načtené v paměti. Efekt: Ovládá, že modely trvání zůstanou po použití v paměti. Scénář: Delší doby zlepšují dobu odezvy na časté dotazy, ale zvyšují využití paměti. Kratší doba uvolňuje zdroje, ale může prodloužit počáteční reakční dobu. |
| OLLAMA_DEBUG | false | Umožňuje další informace pro ladění. Efekt: Zvyšuje rozvláčnost logování a ladění výstupů. Scénář: Neocenitelný pro řešení problémů nebo pochopení chování systému během vývoje či nasazení. |
| OLLAMA_FLASH_ATTENTION | false | Umožňuje experimentální flashovou pozornost. Efekt: Aktivuje experimentální optimalizaci mechanismů pozornosti. Scénář: Může potenciálně zlepšit výkon na kompatibilním hardwaru, ale může zavést nestabilitu. |
| OLLAMA_NOHISTORY | false | Vypíná historii čtení řádku. Efekt: Zabraňuje ukládání historie příkazů. Scénář: Užitečné v bezpečnostně citlivých prostředích, kde by se historie příkazů neměla uchovávat. |
| OLLAMA_NOPRUNE | false | Vypíná prořezávání modelových blobů při startu. Efekt: Zachovává všechny modelové bloby, což může zvýšit využití disku. Scénář: Užitečné, když potřebujete udržovat všechny verze modelů kvůli kompatibilitě nebo návratu zpět. |
| OLLAMA_SCHED_SPREAD | false | Umožňuje plánování modelů napříč všemi GPU. Efekt: Umožňuje využití více GPU pro modelovou inferenci. Scénář: Výhodné v prostředí s vysokým výkonem s více GPU pro maximalizaci využití hardwaru. |
| OLLAMA_INTEL_GPU | false | Umožňuje experimentální detekci Intel GPU. Efekt: Umožňuje použití Intel GPU pro modelovou inferenci. Scénář: Užitečné pro organizace využívající hardware Intel GPU pro AI pracovní zátěže. |
| OLLAMA_LLM_LIBRARY | "" (automatické detekování) | Nastaví knihovnu LLM k použití. Efekt: Přepisuje automatickou detekci knihovny LLM. Scénář: Užitečné, když potřebujete vynutit konkrétní verzi nebo implementaci knihovny kvůli kompatibilitě nebo výkonu. |
| OLLAMA_TMPDIR | Systémový výchozí dočasný adresář | Nastavuje umístění pro dočasné soubory. Efekt: Určuje, kde jsou dočasné soubory uloženy. Scénář: Důležité pro správu výkonu I/O nebo když má systémový dočasný adresář omezené místo. |
| CUDA_VISIBLE_DEVICES | Vše dostupné | Nastavuje, která NVIDIA zařízení jsou viditelná. Efekt: Ovládá, které grafické karty NVIDIA lze použít. Scénář: Kritické pro správu alokace GPU v prostředí s více uživateli nebo více procesory. |
| HIP_VISIBLE_DEVICES | Vše dostupné | Nastavuje, která AMD zařízení jsou viditelná. Efekt: Ovládá, které AMD GPU lze použít. Scénář: Podobný jako CUDA_VISIBLE_DEVICES, ale pro AMD hardware. |
| OLLAMA_RUNNERS_DIR | Závislé na systému | Nastavuje místo pro běžce. Efekt: Určuje, kde se nacházejí spustitelné soubory runnerů. Scénář: Důležité pro vlastní nasazení nebo když je potřeba izolovat runnery od hlavní aplikace. |
| OLLAMA_NUM_PARALLEL | 0 (neomezené) | Nastavuje počet požadavků na paralelní model. Efekt: Řídí souběžnost modelové inference. Scénář: Klíčové pro řízení zátěže systému a zajištění reakce v prostředí s vysokou návštěvností. |
| OLLAMA_MAX_LOADED_MODELS | 0 (neomezené) | Nastavuje maximální počet naložených modelů. Efekt: Omezuje počet modelů, které lze současně načítat. Scénář: Pomáhá řídit využití paměti v prostředích s omezenými zdroji nebo mnoha různými modely. |
| OLLAMA_MAX_QUEUE | 512 | Nastavuje maximální počet požadavků ve frontě. Efekt: Omezuje velikost fronty požadavků. Scénář: Zabraňuje přetížení systému během dopravních špičk a zajišťuje včasné zpracování požadavků. |
| OLLAMA_MAX_VRAM | 0 (neomezené) | Nastavuje maximální přepsání VRAM v bajtech. Efekt: Omezuje množství VRAM, které lze použít. Scénář: Užitečné ve sdílených GPU prostředích, aby se zabránilo tomu, aby jeden proces monopolizoval paměť GPU. |