| Veranderlijk | Standaardwaarde | Beschrijving + Effect + Scenario |
| OLLAMA_HOST | "[color=var(--fgKleur-accent, var(--kleur-accent-fg))]De hyperlink-login is zichtbaar." | Stel de host en het schema in voor de Olama-server. Effect: Bepaalt de URL die wordt gebruikt om verbinding te maken met de Olama-server. Scenario: Handig bij het deployen van Ollama in een gedistribueerde omgeving of wanneer je de dienst op een specifieke netwerkinterface wilt exposeren. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Configuraties maakten oorsprong voor CORS mogelijk. Effect: Bepaalt welke oorsprongen verzoeken mogen doen aan de Llama-server. Scenario: Cruciaal bij het integreren van Ollama met webapplicaties om ongeautoriseerde toegang vanuit verschillende domeinen te voorkomen. |
| OLLAMA_MODELS | $HOME/.ollama/models | Stelt het pad in naar de models-directory. Effect: Bepaalt waar modelbestanden worden opgeslagen en geladen. Scenario: Handig voor het beheren van schijfruimte op verschillende schijven of het opzetten van gedeelde modelrepositories in multi-user omgevingen. |
| OLLAMA_KEEP_ALIVE | 5 minuten | Bepaalt hoe lang modellen in het geheugen geladen blijven. Effect: Regelt de duurmodellen die na gebruik in het geheugen blijven. Scenario: Langere duurder verbeteren de responstijden voor frequente zoekopdrachten, maar verhogen het geheugengebruik. Kortere speeltijden maken middelen vrij, maar kunnen de initiële reactietijd verlengen. |
| OLLAMA_DEBUG | false | Maakt extra debug-informatie mogelijk. Effect: Verhoogt de breedvoerigheid van logging en debugging. Scenario: Onmisbaar voor het oplossen van problemen of het begrijpen van het gedrag van het systeem tijdens ontwikkeling of implementatie. |
| OLLAMA_FLASH_ATTENTION | false | Maakt de experimentele flash attention-functie mogelijk. Effect: Activeert een experimentele optimalisatie voor aandachtsmechanismen. Scenario: Kan mogelijk de prestaties op compatibele hardware verbeteren, maar kan instabiliteit veroorzaken. |
| OLLAMA_NOHISTORY | false | Schakelt de leeslijngeschiedenis uit. Effect: Voorkomt dat de commandogeschiedenis wordt opgeslagen. Scenario: Nuttig in beveiligingsgevoelige omgevingen waar commandogeschiedenis niet behouden mag blijven. |
| OLLAMA_NOPRUNE | false | Schakelt het snoeien van modelblobs bij het opstarten uit. Effect: Houdt alle modelblobs behouden, wat mogelijk het gebruik van de schijf verhoogt. Scenario: Handig wanneer je alle modelversies moet onderhouden voor compatibiliteit of rollback. |
| OLLAMA_SCHED_SPREAD | false | Maakt het mogelijk om modellen over alle GPU's te plannen. Effect: Maakt gebruik van meerdere GPU's mogelijk voor modelinferentie. Scenario: Voordelig in high-performance computing-omgevingen met meerdere GPU's om het hardwaregebruik te maximaliseren. |
| OLLAMA_INTEL_GPU | false | Maakt experimentele Intel GPU-detectie mogelijk. Effect: Maakt het gebruik van Intel GPU's mogelijk voor modelinferentie. Scenario: Nuttig voor organisaties die Intel GPU-hardware gebruiken voor AI-workloads. |
| OLLAMA_LLM_LIBRARY | "" (auto-detect) | Stelt de LLM-bibliotheek in om te gebruiken. Effect: Overschrijft automatische detectie van de LLM-bibliotheek. Scenario: Handig wanneer je een specifieke bibliotheekversie of implementatie moet forceren vanwege compatibiliteit of prestaties. |
| OLLAMA_TMPDIR | System standaard temp directory | Stelt de locatie in voor tijdelijke bestanden. Effect: Bepaalt waar tijdelijke bestanden worden opgeslagen. Scenario: Belangrijk voor het beheren van I/O-prestaties of wanneer de tijdelijke systeemmap beperkte ruimte heeft. |
| CUDA_VISIBLE_DEVICES | Alles beschikbaar | Sets welke NVIDIA-apparaten zichtbaar zijn. Effect: Bepaalt welke NVIDIA GPU's gebruikt kunnen worden. Scenario: Cruciaal voor het beheren van GPU-toewijzing in multi-user of multi-process omgevingen. |
| HIP_VISIBLE_DEVICES | Alles beschikbaar | Sets welke AMD-apparaten zichtbaar zijn. Effect: Bepaalt welke AMD-GPU's gebruikt mogen worden. Scenario: Vergelijkbaar met CUDA_VISIBLE_DEVICES maar dan voor AMD-hardware. |
| OLLAMA_RUNNERS_DIR | Systeemafhankelijk | Bepaalt de locatie voor runners. Effect: Bepaalt waar runner-executables zich bevinden. Scenario: Belangrijk voor aangepaste implementaties of wanneer runners geïsoleerd moeten worden van de hoofdapplicatie. |
| OLLAMA_NUM_PARALLEL | 0 (onbeperkt) | Stelt het aantal parallelle modelverzoeken in. Effect: Beheerst gelijktijdigheid van modelinferentie. Scenario: Cruciaal voor het beheren van de systeembelasting en het waarborgen van responsiviteit in drukbezochte omgevingen. |
| OLLAMA_MAX_LOADED_MODELS | 0 (onbeperkt) | Stelt het maximale aantal geladen modellen in. Effect: Beperkt het aantal modellen dat gelijktijdig geladen kan worden. Scenario: Helpt bij het beheren van geheugengebruik in omgevingen met beperkte middelen of veel verschillende modellen. |
| OLLAMA_MAX_QUEUE | 512 | Stelt het maximale aantal in de wachtrij staande verzoeken in. Effect: Beperkt de grootte van de verzoekwachtrij. Scenario: Voorkomt systeemoverbelasting tijdens verkeerspieken en zorgt voor tijdige verwerking van verzoeken. |
| OLLAMA_MAX_VRAM | 0 (onbeperkt) | Stelt een maximale VRAM-overbewerking in bytes in. Effect: Beperkt de hoeveelheid VRAM die gebruikt kan worden. Scenario: Handig in gedeelde GPU-omgevingen om te voorkomen dat één enkel proces het GPU-geheugen monopoliseert. |