| Variable | Standardwert | Beschreibung + Wirkung + Szenario |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Der Hyperlink-Login ist sichtbar." | Konfiguriert den Host und das Schema für den Ollama-Server. Effekt: Bestimmt die URL, die zur Verbindung zum Ollama-Server verwendet wird. Szenario: Nützlich beim Bereitstellen von Ollama in einer verteilten Umgebung oder wenn man den Dienst auf einer bestimmten Netzwerkschnittstelle bereitstellen muss. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Konfigurierungen erlaubten Ursprünge für CORS. Effekt: Kontrolliert, welche Ursprünge Anfragen an den Ollama-Server stellen dürfen. Szenario: Entscheidend bei der Integration von Ollama mit Webanwendungen, um unbefugten Zugriff aus verschiedenen Domänen zu verhindern. |
| OLLAMA_MODELS | $HOME/.ollama/models | Legt den Pfad zum Models-Verzeichnis fest. Effekt: Bestimmt, wo Modelldateien gespeichert und geladen werden. Szenario: Nützlich zur Verwaltung des Festplattenspeichers auf verschiedenen Laufwerken oder zur Einrichtung gemeinsamer Modell-Repositories in Mehrbenutzerumgebungen. |
| OLLAMA_KEEP_ALIVE | 5 Minuten | Legt fest, wie lange Modelle im Speicher geladen bleiben. Effekt: Die Dauermodelle bleiben nach der Nutzung im Speicher. Szenario: Längere Laufzeiten verbessern die Antwortzeiten bei häufigen Abfragen, erhöhen aber den Speicherverbrauch. Kürzere Laufzeiten schaffen Ressourcen frei, können aber die anfänglichen Reaktionszeiten erhöhen. |
| OLLAMA_DEBUG | false | Ermöglicht zusätzliche Debug-Informationen. Effekt: Erhöht die Länge bei Logging und Debugging. Szenario: Von unschätzbarem Wert, um Probleme zu beheben oder das Systemverhalten während Entwicklung oder Bereitstellung zu verstehen. |
| OLLAMA_FLASH_ATTENTION | false | Ermöglicht die experimentelle Flash-Attention-Funktion. Effekt: Aktiviert eine experimentelle Optimierung für Aufmerksamkeitsmechanismen. Szenario: Kann die Leistung auf kompatibler Hardware verbessern, kann aber Instabilität verursachen. |
| OLLAMA_NOHISTORY | false | Deaktiviert die Leselinien-Geschichte. Effekt: Verhindert, dass die Befehlshistorie gespeichert wird. Szenario: Nützlich in sicherheitssensiblen Umgebungen, in denen der Befehlsverlauf nicht gespeichert werden sollte. |
| OLLAMA_NOPRUNE | false | Es wird das Trimmen von Modellblobs beim Start deaktiviert. Effekt: Behält alle Modellblobs bei, was die Festplattennutzung potenziell erhöht. Szenario: Hilfreich, wenn du alle Modellversionen aus Kompatibilitäts- oder Rollback-Gründen pflegen musst. |
| OLLAMA_SCHED_SPREAD | false | Ermöglicht die Planung von Modellen über alle GPUs hinweg. Effekt: Ermöglicht die Nutzung mehrerer GPUs zur Modellinferenz. Szenario: Vorteilhaft in Hochleistungs-Computing-Umgebungen mit mehreren GPUs, um die Hardware-Auslastung zu maximieren. |
| OLLAMA_INTEL_GPU | false | Ermöglicht experimentelle Intel-GPU-Erkennung. Effekt: Ermöglicht die Nutzung von Intel-GPUs zur Modellinferenz. Szenario: Nützlich für Organisationen, die Intel-GPU-Hardware für KI-Workloads nutzen. |
| OLLAMA_LLM_LIBRARY | "" (Auto-Detektieren) | Stellt die LLM-Bibliothek so ein, dass sie verwendet wird. Effekt: Überschreibt die automatische Erkennung der LLM-Bibliothek. Szenario: Nützlich, wenn man eine bestimmte Bibliotheksversion oder Implementierung aus Kompatibilitäts- oder Performancegründen erzwingen muss. |
| OLLAMA_TMPDIR | System-Standard-Temp-Verzeichnis | Legt den Speicherort für temporäre Dateien fest. Effekt: Bestimmt, wo temporäre Dateien gespeichert werden. Szenario: Wichtig für die Verwaltung der I/O-Leistung oder wenn das temporäre Systemverzeichnis begrenzten Speicherplatz hat. |
| CUDA_VISIBLE_DEVICES | Alle verfügbar | Es werden festgelegt, welche NVIDIA-Geräte sichtbar sind. Effekt: Kontrolliert, welche NVIDIA-GPUs verwendet werden können. Szenario: Entscheidend für die Verwaltung der GPU-Zuweisung in Multi-User- oder Multi-Prozess-Umgebungen. |
| HIP_VISIBLE_DEVICES | Alle verfügbar | Setzt, welche AMD-Geräte sichtbar sind. Effekt: Bestimmt, welche AMD-GPUs verwendet werden können. Szenario: Ähnlich wie CUDA_VISIBLE_DEVICES, aber für AMD-Hardware. |
| OLLAMA_RUNNERS_DIR | Systemabhängig | Legt den Standort für die Läufer fest. Effekt: Bestimmt, wo sich Runner-Executables befinden. Szenario: Wichtig für benutzerdefinierte Deployments oder wenn Runner von der Hauptanwendung isoliert werden müssen. |
| OLLAMA_NUM_PARALLEL | 0 (unbegrenzt) | Legt die Anzahl der parallelen Modellanfragen fest. Effekt: Kontrolliert die Nebenläufigkeit der Modellinferenz. Szenario: Entscheidend für das Management der Systemlast und die Sicherstellung einer Reaktionsfähigkeit in stark frequentierten Umgebungen. |
| OLLAMA_MAX_LOADED_MODELS | 0 (unbegrenzt) | Legt die maximale Anzahl geladener Modelle fest. Effekt: Begrenzt die Anzahl der Modelle, die gleichzeitig geladen werden können. Szenario: Hilft bei der Verwaltung des Speicherverbrauchs in Umgebungen mit begrenzten Ressourcen oder vielen verschiedenen Modellen. |
| OLLAMA_MAX_QUEUE | 512 | Legt die maximale Anzahl der Warteschlangenanfragen fest. Effekt: Begrenzt die Größe der Anfrage-Warteschlange. Szenario: Verhindert Systemüberlastung während Verkehrsspitzen und gewährleistet eine rechtzeitige Bearbeitung von Anfragen. |
| OLLAMA_MAX_VRAM | 0 (unbegrenzt) | Setzt eine maximale VRAM-Übersteuerung in Bytes. Effekt: Begrenzt die Menge an VRAM, die genutzt werden kann. Szenario: Nützlich in Shared GPU-Umgebungen, um zu verhindern, dass ein einzelner Prozess den GPU-Speicher monopolisiert. |