| Zmienna | Domyślna wartość | Opis + Efekt + Scenariusz |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]Logowanie do linku jest widoczne." | Konfiguruje hosta i schemat serwera Ollama. Efekt: Określa adres URL używany do łączenia się z serwerem Ollama. Scenariusz: Przydatne przy wdrażaniu Ollama w środowisku rozproszonym lub gdy musisz udostępnić usługę na konkretnym interfejsie sieciowym. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | Konfiguruje dozwolone początki dla CORS. Efekt: Kontroluje, które źródła mogą wysyłać żądania do serwera Ollama. Scenariusz: Kluczowe przy integracji Ollama z aplikacjami webowymi, aby zapobiec nieautoryzowanemu dostępowi z różnych domen. |
| OLLAMA_MODELS | $HOME/.ollama/models | Ustawia ścieżkę do katalogu modeli. Efekt: Określa, skąd pliki modeli są przechowywane i ładowane. Scenariusz: Przydatne do zarządzania przestrzenią dyskową na różnych dyskach lub tworzenia współdzielonych repozytoriów modeli w środowiskach wieloużytkownikowych. |
| OLLAMA_KEEP_ALIVE | 5 minut | Określa, jak długo modele pozostają załadowane w pamięci. Efekt: Kontroluje, że modele czasu trwania pozostają w pamięci po użyciu. Scenariusz: Dłuższe czasy pracy poprawiają czas odpowiedzi na częste zapytania, ale zwiększają zużycie pamięci. Krótsze czasy uwalniają zasoby, ale mogą wydłużyć czas początkowej reakcji. |
| OLLAMA_DEBUG | false | Umożliwia dodatkowe informacje debugujące. Efekt: Zwiększa rozwlekłość logowania i debugowania. Scenariusz: Nieoceniony do rozwiązywania problemów lub zrozumienia zachowania systemu podczas rozwoju lub wdrożenia. |
| OLLAMA_FLASH_ATTENTION | false | Włącza eksperymentalną funkcję błysku uwagi. Efekt: Aktywuje eksperymentalną optymalizację mechanizmów uwagi. Scenariusz: Może potencjalnie poprawić wydajność na kompatybilnym sprzęcie, ale może wprowadzać niestabilność. |
| OLLAMA_NOHISTORY | false | Wyłącza historię czytania linii. Efekt: Zapobiega zapisywaniu historii poleceń. Scenariusz: Przydatny w środowiskach wrażliwych na bezpieczeństwo, gdzie historia poleceń nie powinna być utrwalana. |
| OLLAMA_NOPRUNE | false | Wyłącza przycinanie blobów modelu przy starcie. Efekt: Zachowuje wszystkie bloby modelu, co potencjalnie zwiększa zużycie dysku. Scenariusz: Pomocne, gdy trzeba utrzymywać wszystkie wersje modelu ze względu na kompatybilność lub cofanie modelu. |
| OLLAMA_SCHED_SPREAD | false | Pozwala na planowanie modeli na wszystkich GPU. Efekt: Umożliwia wykorzystanie wielu GPU do wnioskowania modelowego. Scenariusz: Korzystne w środowiskach wysokowydajnych obliczeniowych z wieloma GPU, aby zmaksymalizować wykorzystanie sprzętu. |
| OLLAMA_INTEL_GPU | false | Umożliwia eksperymentalne wykrywanie karty Intel GPU. Efekt: Umożliwia wykorzystanie procesorów Intel do wnioskowania modeli. Scenariusz: Przydatne dla organizacji wykorzystujących sprzęt Intel GPU do zadań AI. |
| OLLAMA_LLM_LIBRARY | "" (automatyczne wykrywanie) | Ustawia bibliotekę LLM do użycia. Efekt: Nadpisuje automatyczne wykrywanie biblioteki LLM. Scenariusz: Przydatne, gdy trzeba wymusić konkretną wersję lub implementację biblioteki ze względów kompatybilności lub wydajności. |
| OLLAMA_TMPDIR | Domyślny katalog tymczasowy systemu | Ustawia lokalizację dla plików tymczasowych. Efekt: Określa, gdzie przechowywane są pliki tymczasowe. Scenariusz: Ważne dla zarządzania wydajnością I/O lub gdy katalog tymczasowy systemu ma ograniczoną przestrzeń. |
| CUDA_VISIBLE_DEVICES | Wszystkie dostępne | Ustawia, które urządzenia NVIDIA są widoczne. Efekt: Kontroluje, które karty graficzne NVIDIA mogą być używane. Scenariusz: Kluczowe dla zarządzania alokacją GPU w środowiskach wieloużytkownikowych lub wieloprocesowych. |
| HIP_VISIBLE_DEVICES | Wszystkie dostępne | Ustala, które urządzenia AMD są widoczne. Efekt: Kontroluje, które karty graficzne AMD mogą być używane. Scenariusz: Podobny do CUDA_VISIBLE_DEVICES, ale dla sprzętu AMD. |
| OLLAMA_RUNNERS_DIR | Zależność od systemu | Ustawia miejsce dla biegaczy. Efekt: Określa, gdzie znajdują się pliki wykonywalne runnera. Scenariusz: Ważne przy niestandardowych wdrożeniach lub gdy runnerzy muszą być odizolowani od głównej aplikacji. |
| OLLAMA_NUM_PARALLEL | 0 (nieograniczone) | Ustala liczbę żądań modelu równoległego. Efekt: Kontroluje współbieżność wnioskowania modelowego. Scenariusz: Kluczowe dla zarządzania obciążeniem systemu i zapewnienia responsywności w środowiskach o dużym natężeniu ruchu. |
| OLLAMA_MAX_LOADED_MODELS | 0 (nieograniczone) | Ustala maksymalną liczbę załadowanych modeli. Efekt: Ogranicza liczbę modeli, które można ładować jednocześnie. Scenariusz: Pomaga zarządzać zużyciem pamięci w środowiskach o ograniczonych zasobach lub wielu różnych modelach. |
| OLLAMA_MAX_QUEUE | 512 | Ustala maksymalną liczbę kolejkowych żądań. Efekt: Ogranicza rozmiar kolejki żądań. Scenariusz: Zapobiega przeciążeniu systemu podczas skoków ruchu i zapewnia terminowe przetwarzanie żądań. |
| OLLAMA_MAX_VRAM | 0 (nieograniczone) | Ustawia maksymalne nadpisanie VRAM w bajtach. Efekt: Ogranicza ilość używanej pamięci VRAM. Scenariusz: Przydatne w środowiskach współdzielonych GPU, aby zapobiec monopolizacji pamięci GPU przez jeden proces. |