| 변수 | 기본 값 | 설명 + 효과 + 시나리오 |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]하이퍼링크 로그인이 보입니다." | Ollama 서버의 호스트와 스킴을 구성합니다. 효과: Ollama 서버에 접속하는 데 사용되는 URL을 결정합니다. 시나리오: 분산 환경에서 Ollama를 배포하거나 특정 네트워크 인터페이스에 서비스를 노출해야 할 때 유용합니다. |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | 컨figure는 CORS의 기원을 가능하게 했습니다. 효과: 어떤 오리진이 올라마 서버에 요청을 할 수 있는지 제어합니다. 시나리오: Ollama를 웹 애플리케이션과 통합할 때 서로 다른 도메인에서 무단 접근을 방지하기 위해 매우 중요합니다. |
| OLLAMA_MODELS | $HOME/.ollama/models | 모델을 가진 디렉터리로 가는 경로를 설정합니다. 효과: 모델 파일이 저장되고 로드되는 위치를 결정합니다. 시나리오: 서로 다른 드라이브의 디스크 공간을 관리하거나 다중 사용자 환경에서 공유 모델 저장소를 설정하는 데 유용합니다. |
| OLLAMA_KEEP_ALIVE | 5분 | 모델이 메모리에 얼마나 오래 로드되는지 설정합니다. 효과: 사용 후 모델 지속 시간을 메모리에 남기도록 제어합니다. 시나리오: 더 긴 시간 동안 빈번한 쿼리에 대한 응답 시간은 개선되지만 메모리 사용량이 증가합니다. 짧은 시간은 자원을 확보하지만 초기 대응 시간이 늘어날 수 있습니다. |
| OLLAMA_DEBUG | false | 추가 디버그 정보를 활성화합니다. 효과: 로그와 디버깅 출력의 장황함을 증가시킵니다. 시나리오: 문제 해결이나 개발 또는 배포 중 시스템 동작을 이해하는 데 매우 유용합니다. |
| OLLAMA_FLASH_ATTENTION | false | 실험적인 플래시 주의 기능을 활성화합니다. 효과: 주의 메커니즘에 대한 실험적 최적화를 활성화합니다. 시나리오: 호환 하드웨어에서 성능을 향상시킬 수 있지만 불안정성을 초래할 수 있습니다. |
| OLLAMA_NOHISTORY | false | 리드라인 히스토리를 비활성화합니다. 효과: 명령 기록이 저장되는 것을 막습니다. 시나리오: 명령 이력을 유지해서는 안 되는 보안 민감 환경에서 유용합니다. |
| OLLAMA_NOPRUNE | false | 시작 시 모델 블롭의 가지치기를 비활성화합니다. 효과: 모든 모델 블롭을 유지하여 디스크 사용량을 증가시킬 수 있습니다. 시나리오: 호환성이나 롤백 목적으로 모든 모델 버전을 유지해야 할 때 유용합니다. |
| OLLAMA_SCHED_SPREAD | false | 모든 GPU에서 모델을 스케줄링할 수 있습니다. 효과: 모델 추론을 위한 다중 GPU 사용을 가능하게 합니다. 시나리오: 다중 GPU가 탑재된 고성능 컴퓨팅 환경에서 하드웨어 활용도를 극대화하는 데 유리합니다. |
| OLLAMA_INTEL_GPU | false | 실험적인 인텔 GPU 감지 기능을 지원합니다. 효과: 모델 추론을 위해 인텔 GPU를 사용할 수 있습니다. 시나리오: AI 워크로드에 인텔 GPU 하드웨어를 활용하는 조직에 유용합니다. |
| OLLAMA_LLM_LIBRARY | "" (자동 감지) | LLM 라이브러리를 사용하도록 설정합니다. 효과: LLM 라이브러리의 자동 감지를 무시함. 시나리오: 호환성이나 성능 문제로 특정 라이브러리 버전이나 구현을 강제해야 할 때 유용합니다. |
| OLLAMA_TMPDIR | 시스템 기본 임시 디렉터리 | 임시 파일 위치를 설정합니다. 효과: 임시 파일이 저장되는 위치를 결정합니다. 시나리오: I/O 성능 관리나 시스템 임시 디렉터리 공간이 제한적일 때 중요합니다. |
| CUDA_VISIBLE_DEVICES | 모두 이용 가능합니다 | NVIDIA 기기가 보이는 세트입니다. 효과: 사용할 수 있는 NVIDIA GPU를 제어합니다. 시나리오: 다중 사용자 또는 다중 프로세스 환경에서 GPU 할당을 관리하는 데 매우 중요합니다. |
| HIP_VISIBLE_DEVICES | 모두 이용 가능합니다 | 어떤 AMD 기기가 보이는지 설정하는 것입니다. 효과: 어떤 AMD GPU를 사용할 수 있는지 제어합니다. 시나리오: CUDA_VISIBLE_DEVICES와 비슷하지만 AMD 하드웨어를 위한 것입니다. |
| OLLAMA_RUNNERS_DIR | 시스템 의존성 | 러너의 위치를 정해. 효과: 러너 실행 파일이 어디에 위치하는지 결정합니다. 시나리오: 커스텀 배포나 러너를 메인 애플리케이션에서 분리해야 할 때 중요합니다. |
| OLLAMA_NUM_PARALLEL | 0 (무제한) | 병렬 모델 요청 횟수를 설정합니다. 효과: 모델 추론의 동시성을 제어합니다. 시나리오: 시스템 부하 관리와 고트래픽 환경에서 반응성 확보에 매우 중요합니다. |
| OLLAMA_MAX_LOADED_MODELS | 0 (무제한) | 최대 장착 모델 수를 설정합니다. 효과: 동시에 로드할 수 있는 모델 수를 제한합니다. 시나리오: 제한된 자원이나 다양한 모델이 있는 환경에서 메모리 사용량을 관리하는 데 도움을 줍니다. |
| OLLAMA_MAX_QUEUE | 512 | 대기열에 있는 최대 요청 수를 설정합니다. 효과: 요청 대기열 크기를 제한합니다. 시나리오: 트래픽 급증 시 시스템 과부하를 방지하고 요청의 적시 처리를 보장합니다. |
| OLLAMA_MAX_VRAM | 0 (무제한) | 최대 VRAM 오버라이드 용량을 바이트 단위로 설정합니다. 효과: 사용할 수 있는 VRAM 양을 제한합니다. 시나리오: 공유 GPU 환경에서 단일 프로세스가 GPU 메모리를 독점하는 것을 방지하는 데 유용합니다. |