| Variabel | Standardverdi | Beskrivelse + Effekt + Scenario |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Innloggingen med hyperkoblingen er synlig." | Konfigurerer verten og oppsettet for Ollama-serveren. Effekt: Bestemmer URL-en som brukes for å koble til Ollama-serveren. Scenario: Nyttig når du deployerer Ollama i et distribuert miljø eller når du må eksponere tjenesten på et spesifikt nettverksgrensesnitt. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Konfigurasjoner tillot opprinnelse for CORS. Effekt: Kontrollerer hvilke opprinnelser som får lov til å sende forespørsler til Ollama-serveren. Scenario: Kritisk ved integrering av Ollama med webapplikasjoner for å forhindre uautorisert tilgang fra ulike domener. |
| OLLAMA_MODELS | $HOME/.ollama/models | Setter veien til models-katalogen. Effekt: Bestemmer hvor modellfiler lagres og lastes fra. Scenario: Nyttig for å administrere diskplass på forskjellige disker eller sette opp delte modellrepositorier i flerbrukermiljøer. |
| OLLAMA_KEEP_ALIVE | 5 minutter | Setter hvor lenge modellene forblir lastet i minnet. Effekt: Kontrollerer varighetsmodellene forblir i minnet etter bruk. Scenario: Lengre varigheter forbedrer responstiden for hyppige forespørsler, men øker minnebruken. Kortere varighet frigjør ressurser, men kan øke de første responstidene. |
| OLLAMA_DEBUG | false | Muliggjør ytterligere feilsøkingsinformasjon. Effekt: Øker ordrikheten i logging og feilsøking. Scenario: Uvurderlig for feilsøking eller forståelse av systemets oppførsel under utvikling eller utrulling. |
| OLLAMA_FLASH_ATTENTION | false | Muliggjør eksperimentell flash attention-funksjon. Effekt: Aktiverer en eksperimentell optimalisering for oppmerksomhetsmekanismer. Scenario: Kan potensielt forbedre ytelsen på kompatibel maskinvare, men kan føre til ustabilitet. |
| OLLAMA_NOHISTORY | false | Deaktiverer leselinjehistorikk. Effekt: Forhindrer at kommandohistorikk lagres. Scenario: Nyttig i sikkerhetssensitive miljøer hvor kommandohistorikk ikke bør opprettholdes. |
| OLLAMA_NOPRUNE | false | Deaktiverer beskjæring av modellblobs ved oppstart. Effekt: Beholder alle modellblobs, noe som potensielt øker diskbruken. Scenario: Nyttig når du må vedlikeholde alle modellversjoner for kompatibilitet eller tilbakerulling. |
| OLLAMA_SCHED_SPREAD | false | Tillater planlegging av modeller på tvers av alle GPU-er. Effekt: Muliggjør bruk av flere GPU-er for modellinferens. Scenario: Fordelaktig i høyytelses databehandlingsmiljøer med flere GPU-er for å maksimere maskinvareutnyttelsen. |
| OLLAMA_INTEL_GPU | false | Muliggjør eksperimentell Intel GPU-deteksjon. Effekt: Tillater bruk av Intel-GPU-er for modellinferens. Scenario: Nyttig for organisasjoner som utnytter Intel GPU-maskinvare for AI-arbeidsbelastninger. |
| OLLAMA_LLM_LIBRARY | "" (auto-detekter) | Setter LLM-biblioteket til bruk. Effekt: Overstyrer automatisk deteksjon av LLM-biblioteket. Scenario: Nyttig når du trenger å tvinge frem en spesifikk bibliotekversjon eller implementering av kompatibilitets- eller ytelsesgrunner. |
| OLLAMA_TMPDIR | Systemstandard temp-katalog | Setter plasseringen for midlertidige filer. Effekt: Avgjør hvor midlertidige filer lagres. Scenario: Viktig for å håndtere I/O-ytelse eller når systemets midlertidige katalog har begrenset plass. |
| CUDA_VISIBLE_DEVICES | Alle tilgjengelige | Setter hvilke NVIDIA-enheter som er synlige. Effekt: Kontrollerer hvilke NVIDIA-GPU-er som kan brukes. Scenario: Kritisk for å håndtere GPU-allokering i flerbruker- eller flerprosessmiljøer. |
| HIP_VISIBLE_DEVICES | Alle tilgjengelige | Setter hvilke AMD-enheter som er synlige. Effekt: Kontrollerer hvilke AMD-GPU-er som kan brukes. Scenario: Ligner på CUDA_VISIBLE_DEVICES, men for AMD-maskinvare. |
| OLLAMA_RUNNERS_DIR | Systemavhengig | Setter lokasjonen for løperne. Effekt: Bestemmer hvor runner-kjørbare filer befinner seg. Scenario: Viktig for tilpassede distribusjoner eller når runnere må isoleres fra hovedapplikasjonen. |
| OLLAMA_NUM_PARALLEL | 0 (ubegrenset) | Setter antall forespørsler om parallelle modeller. Effekt: Kontrollerer samtidighet av modellinferens. Scenario: Kritisk for å håndtere systembelastningen og sikre respons i miljøer med mye trafikk. |
| OLLAMA_MAX_LOADED_MODELS | 0 (ubegrenset) | Setter maksimalt antall lastede modeller. Effekt: Begrenser antall modeller som kan lastes samtidig. Scenario: Hjelper til med å håndtere minnebruk i miljøer med begrensede ressurser eller mange forskjellige modeller. |
| OLLAMA_MAX_QUEUE | 512 | Setter maksimalt antall forespørsler i kø. Effekt: Begrenser størrelsen på forespørselskøen. Scenario: Forhindrer systemoverbelastning under trafikktopper og sikrer rettidig behandling av forespørsler. |
| OLLAMA_MAX_VRAM | 0 (ubegrenset) | Setter en maksimal VRAM-overstyring i bytes. Effekt: Begrenser hvor mye VRAM som kan brukes. Scenario: Nyttig i delte GPU-miljøer for å forhindre at en enkelt prosess monopoliserer GPU-minnet. |