| Premenná | Predvolená hodnota | Popis + Efekt + Scenár |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Prihlásenie na hypertextový odkaz je viditeľné." | Konfiguruje hostiteľa a schému pre server Ollama. Efekt: Určuje URL adresu používanú na pripojenie k serveru Ollama. Scenár: Užitočné pri nasadzovaní Ollama v distribuovanom prostredí alebo keď potrebujete sprístupniť službu na konkrétnom sieťovom rozhraní. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Konfiguruje povolené pôvody pre CORS. Efekt: Kontroluje, ktoré pôvody môžu posielať požiadavky na server Ollama. Scenár: Kľúčové pri integrácii Ollama s webovými aplikáciami, aby sa zabránilo neoprávnenému prístupu z rôznych domén. |
| OLLAMA_MODELS | $HOME/.ollama/models | Nastaví cestu do adresára modelov. Efekt: Určuje, odkiaľ sa ukladajú a načítavajú súbory modelov. Scenár: Užitočné pri správe diskového priestoru na rôznych diskoch alebo pri nastavovaní zdieľaných modelových repozitárov v prostredí s viacerými užívateľmi. |
| OLLAMA_KEEP_ALIVE | 5 minút | Nastavuje, ako dlho zostávajú modely načítané v pamäti. Efekt: Kontroluje, že modely trvania zostávajú v pamäti po použití. Scenár: Dlhšie trvanie zlepšuje časy reakcie na časté dotazy, ale zvyšuje spotrebu pamäte. Kratšie trvanie uvoľňuje zdroje, ale môže predĺžiť počiatočné reakčné časy. |
| OLLAMA_DEBUG | false | Umožňuje ďalšie informácie na ladenie. Efekt: Zvyšuje rozvláčnosť logovania a ladenia výstupu. Scenár: Neoceniteľné pri riešení problémov alebo pochopení správania systému počas vývoja či nasadenia. |
| OLLAMA_FLASH_ATTENTION | false | Umožňuje experimentálnu schopnosť flash attention (Experimentálna záblesk pozornosti). Efekt: Aktivuje experimentálnu optimalizáciu mechanizmov pozornosti. Scenár: Môže potenciálne zlepšiť výkon na kompatibilnom hardvéri, ale môže priniesť nestabilitu. |
| OLLAMA_NOHISTORY | false | Vypína históriu čítania riadkov. Efekt: Zabraňuje uloženiu histórie príkazov. Scenár: Užitočné v bezpečnostne citlivých prostrediach, kde by sa história príkazov nemala uchovávať. |
| OLLAMA_NOPRUNE | false | Vypína orezávanie modelových blobov pri štarte. Efekt: Zachováva všetky modelové bloby, čo môže zvýšiť využitie disku. Scenár: Užitočné, keď potrebujete udržiavať všetky verzie modelov kvôli kompatibilite alebo návratu späť do minulosti. |
| OLLAMA_SCHED_SPREAD | false | Umožňuje plánovanie modelov naprieč všetkými GPU. Efekt: Umožňuje využitie viacerých GPU pre modelovú inferenciu. Scenár: Výhodné vo vysokovýkonných výpočtových prostrediach s viacerými GPU na maximalizáciu využitia hardvéru. |
| OLLAMA_INTEL_GPU | false | Umožňuje experimentálnu detekciu Intel GPU. Efekt: Umožňuje použitie Intel GPU na modelové inferencie. Scenár: Užitočné pre organizácie využívajúce hardvér Intel GPU pre AI pracovné zaťaženia. |
| OLLAMA_LLM_LIBRARY | "" (automatické detekovanie) | Nastaví knižnicu LLM na použitie. Efekt: Prepisuje automatickú detekciu knižnice LLM. Scenár: Užitočné, keď potrebujete vynútiť konkrétnu verziu alebo implementáciu knižnice kvôli kompatibilite alebo výkonu. |
| OLLAMA_TMPDIR | Systémový predvolený dočasný adresár | Nastavuje polohu pre dočasné súbory. Efekt: Určuje, kde sú dočasné súbory uložené. Scenár: Dôležité pre riadenie výkonu I/O alebo keď má systémový dočasný adresár obmedzený priestor. |
| CUDA_VISIBLE_DEVICES | Všetky dostupné | Nastavuje, ktoré NVIDIA zariadenia sú viditeľné. Efekt: Ovláda, ktoré NVIDIA GPU je možné použiť. Scenár: Kritické pre správu prideľovania GPU v prostredí s viacerými užívateľmi alebo viacerými procesmi. |
| HIP_VISIBLE_DEVICES | Všetky dostupné | Nastavuje, ktoré AMD zariadenia sú viditeľné. Efekt: Ovláda, ktoré AMD GPU je možné použiť. Scenár: Podobné ako CUDA_VISIBLE_DEVICES, ale pre AMD hardvér. |
| OLLAMA_RUNNERS_DIR | Závislosť od systému | Nastavuje polohu pre bežcov. Efekt: Určuje, kde sa nachádzajú spustiteľné súbory runnerov. Scenár: Dôležité pri vlastných nasadeniach alebo keď je potrebné bežcov izolovať od hlavnej aplikácie. |
| OLLAMA_NUM_PARALLEL | 0 (neobmedzené) | Nastavuje počet požiadaviek na paralelný model. Efekt: Reguluje súbežnosť modelovej inferencie. Scenár: Kľúčové pre riadenie záťaže systému a zabezpečenie pohotovosti v prostredí s vysokou premávkou. |
| OLLAMA_MAX_LOADED_MODELS | 0 (neobmedzené) | Nastavuje maximálny počet naložených modelov. Efekt: Obmedzuje počet modelov, ktoré môžu byť načítané súčasne. Scenár: Pomáha riadiť využitie pamäte v prostrediach s obmedzenými zdrojmi alebo mnohými rôznymi modelmi. |
| OLLAMA_MAX_QUEUE | 512 | Nastavuje maximálny počet zaradených požiadaviek. Efekt: Obmedzuje veľkosť fronty požiadaviek. Scenár: Zabraňuje preťaženiu systému počas dopravných špičk a zabezpečuje včasné spracovanie požiadaviek. |
| OLLAMA_MAX_VRAM | 0 (neobmedzené) | Nastavuje maximálny override VRAM v bajtoch. Efekt: Obmedzuje množstvo VRAM, ktoré je možné použiť. Scenár: Užitočné v zdieľaných GPU prostrediach na zabránenie tomu, aby jeden proces monopolizoval GPU pamäť. |