| Variabel | Standardvärde | Beskrivning + Effekt + Scenario |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Inloggningen med hyperlänken är synlig." | Konfigurerar värden och schemat för Olama-servern. Effekt: Bestämmer URL:en som används för att ansluta till Olama-servern. Scenario: Användbart vid distribution av Ollama i en distribuerad miljö eller när du behöver exponera tjänsten på ett specifikt nätverksgränssnitt. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Konfigureringar möjliggjorde ursprung för CORS. Effekt: Kontrollerar vilka ursprung som får göra förfrågningar till Olama-servern. Scenario: Avgörande vid integration av Ollama med webbapplikationer för att förhindra obehörig åtkomst från olika domäner. |
| OLLAMA_MODELS | $HOME/.ollama/modeller | Sätter sökvägen till modellkatalogen. Effekt: Bestämmer varifrån modellfiler lagras och laddas. Scenario: Användbart för att hantera diskutrymme på olika enheter eller för att sätta upp delade modellarkiv i fleranvändarmiljöer. |
| OLLAMA_KEEP_ALIVE | 5 minuter | Sätter hur länge modeller förblir laddade i minnet. Effekt: Kontrollerar varaktighetsmodellerna förblir i minnet efter användning. Scenario: Längre varaktigheter förbättrar svarstider för frekventa förfrågningar men ökar minnesanvändningen. Kortare tider frigör resurser men kan öka de initiala svarstiderna. |
| OLLAMA_DEBUG | false | Möjliggör ytterligare felsökningsinformation. Effekt: Ökar utförsamheten i loggning och felsökning. Scenario: Ovärderligt för att felsöka problem eller förstå systemets beteende under utveckling eller driftsättning. |
| OLLAMA_FLASH_ATTENTION | false | Möjliggör experimentell flash-uppmärksamhetsfunktion. Effekt: Aktiverar en experimentell optimering för uppmärksamhetsmekanismer. Scenario: Kan potentiellt förbättra prestandan på kompatibel hårdvara men kan skapa instabilitet. |
| OLLAMA_NOHISTORY | false | Inaktiverar läslinjehistorik. Effekt: Förhindrar att kommandohistorik sparas. Scenario: Användbart i säkerhetskänsliga miljöer där kommandohistorik inte bör bevaras. |
| OLLAMA_NOPRUNE | false | Inaktiverar beskärning av modellblobs vid uppstart. Effekt: Behåller alla modellblobs, vilket potentiellt ökar diskanvändningen. Scenario: Hjälpsamt när du behöver underhålla alla modellversioner för kompatibilitet eller återställning. |
| OLLAMA_SCHED_SPREAD | false | Möjliggör schemaläggning av modeller över alla GPU:er. Effekt: Möjliggör användning av flera GPU:er för modellinferens. Scenario: Fördelaktigt i högpresterande datormiljöer med flera GPU:er för att maximera hårdvaruanvändningen. |
| OLLAMA_INTEL_GPU | false | Möjliggör experimentell Intel GPU-detektering. Effekt: Tillåter användning av Intel-GPU:er för modellinferens. Scenario: Användbart för organisationer som utnyttjar Intel GPU-hårdvara för AI-arbetsbelastningar. |
| OLLAMA_LLM_LIBRARY | "" (auto-detekter) | Ställer in LLM-biblioteket att använda. Effekt: Åsidosätter automatisk detektering av LLM-biblioteket. Scenario: Användbart när du behöver tvinga fram en specifik biblioteksversion eller implementation av kompatibilitets- eller prestandaskäl. |
| OLLAMA_TMPDIR | Systemstandard temp-katalog | Ställer in platsen för temporära filer. Effekt: Bestämmer var temporära filer lagras. Scenario: Viktigt för att hantera I/O-prestanda eller när systemets tempkatalog har begränsat utrymme. |
| CUDA_VISIBLE_DEVICES | Alla tillgängliga | Sätter vilka NVIDIA-enheter som är synliga. Effekt: Styr vilka NVIDIA-GPU:er som kan användas. Scenario: Kritiskt för att hantera GPU-allokering i multi-användar- eller multiprocessmiljöer. |
| HIP_VISIBLE_DEVICES | Alla tillgängliga | Sätter vilka AMD-enheter som är synliga. Effekt: Styr vilka AMD-GPU:er som kan användas. Scenario: Liknande CUDA_VISIBLE_DEVICES men för AMD-hårdvara. |
| OLLAMA_RUNNERS_DIR | Systemberoende | Bestämmer platsen för löparna. Effekt: Bestämmer var löparens körbara filer finns. Scenario: Viktigt för anpassade distributioner eller när runners behöver isoleras från huvudapplikationen. |
| OLLAMA_NUM_PARALLEL | 0 (obegränsat) | Sätter antalet parallella modellförfrågningar. Effekt: Kontrollerar samtidighet av modellinferens. Scenario: Kritiskt för att hantera systembelastningen och säkerställa respons i miljöer med hög trafik. |
| OLLAMA_MAX_LOADED_MODELS | 0 (obegränsat) | Sätter det maximala antalet laddade modeller. Effekt: Begränsar antalet modeller som kan laddas samtidigt. Scenario: Hjälper till att hantera minnesanvändning i miljöer med begränsade resurser eller många olika modeller. |
| OLLAMA_MAX_QUEUE | 512 | Sätter det maximala antalet köade förfrågningar. Effekt: Begränsar storleken på förfrågningskön. Scenario: Förhindrar systemöverbelastning under trafiktoppar och säkerställer snabb hantering av förfrågningar. |
| OLLAMA_MAX_VRAM | 0 (obegränsat) | Sätter en maximal VRAM-överskrivning i bytes. Effekt: Begränsning av hur mycket VRAM som kan användas. Scenario: Användbart i delade GPU-miljöer för att förhindra att en enskild process monopoliserar GPU-minnet. |