| 変数 | 既定値 | 説明 + 効果 + シナリオ |
| OLLAMA_HOST | "[color=var(--fgColor-accent, var(--color-accent-fg))]ハイパーリンクのログインが見えます。" | オラマサーバーのホストとスキームの設定を行います。 効果:オラマサーバーに接続する際に使われるURLを決定します。 シナリオ:分散環境でOllamaを展開する場合や、特定のネットワークインターフェース上でサービスを公開する必要がある場合に有用です。 |
| OLLAMA_ORIGINS | [localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri:// | コンフィギュレーションはCORSの起源を決定可能にしました。 効果:オリジンがオラマサーバーにリクエストを行えるかを制御します。 シナリオ:異なるドメインからの不正アクセスを防ぐために、Ollamaをウェブアプリケーションと統合する際に非常に重要です。 |
| OLLAMA_MODELS | $HOME/.ollama/models | モデルディレクトリへのパスを設定します。 効果:モデルファイルの保存場所と読み込み先を決定します。 シナリオ:異なるドライブのディスク容量管理や、マルチユーザー環境での共有モデルリポジトリの設定に有用です。 |
| OLLAMA_KEEP_ALIVE | 5分 | モデルがメモリにどれだけ長く残るかを設定します。 効果:使用後モデルがメモリに残る持続時間を制御します。 シナリオ:長時間のクエリは頻繁なクエリの応答時間を短縮しますが、メモリ使用量は増加します。 短時間はリソースを解放しますが、初期対応時間が長くなる可能性があります。 |
| OLLAMA_DEBUG | false | 追加のデバッグ情報を可能にします。 効果:ログやデバッグの出力が冗長化します。 シナリオ:開発や展開中のトラブルシューティングやシステムの挙動を理解するのに非常に有用です。 |
| OLLAMA_FLASH_ATTENTION | false | 実験的なフラッシュ注意機能を有効にします。 効果:注意メカニズムの実験的最適化を活性化します。 シナリオ:互換性のあるハードウェアで性能を向上させる可能性がありますが、不安定さを引き起こす可能性があります。 |
| OLLAMA_NOHISTORY | false | readline履歴を無効にします。 効果:指揮履歴の保存を妨げる。 シナリオ:コマンド履歴を永続化すべきでないセキュリティに敏感な環境で有用です。 |
| OLLAMA_NOPRUNE | false | 起動時のモデルブロブの剪定を無効にします。 効果:すべてのモデルブロブを保持し、ディスク使用量を増やす可能性があります。 シナリオ:互換性やロールバックのためにすべてのモデルバージョンを維持する必要がある場合に役立ちます。 |
| OLLAMA_SCHED_SPREAD | false | すべてのGPUでモデルをスケジューリングできます。 効果:モデル推論のためのマルチGPU利用を可能にします。 シナリオ:複数のGPUを搭載した高性能コンピューティング環境で、ハードウェアの利用効率を最大化するのが有益です。 |
| OLLAMA_INTEL_GPU | false | 実験的なIntel GPU検出を可能にします。 効果:モデル推論にIntel GPUの使用を可能にします。 シナリオ:AIワークロードにIntel GPUハードウェアを活用する組織にとって有用です。 |
| OLLAMA_LLM_LIBRARY | 「」(自動検出) | LLMライブラリの使用を設定します。 効果:LLMライブラリの自動検出を上書きします。 シナリオ:互換性やパフォーマンスの理由で特定のライブラリのバージョンや実装を強制する必要がある場合に有用です。 |
| OLLAMA_TMPDIR | システムのデフォルト一時ディレクトリ | 一時ファイルの場所を設定します。 効果:一時ファイルの保存場所を決定します。 シナリオ:I/O性能管理やシステム一時ディレクトリの容量が限られている場合に重要です。 |
| CUDA_VISIBLE_DEVICES | すべて利用可能です | どのNVIDIAデバイスが見えるかをセットします。 効果:使用できるNVIDIA GPUを制御します。 シナリオ:マルチユーザーまたはマルチプロセス環境でのGPU割り当て管理に不可欠です。 |
| HIP_VISIBLE_DEVICES | すべて利用可能です | どのAMDデバイスが見えるかのセットです。 効果:どのAMDGPUが使えるかを制御します。 シナリオ:CUDA_VISIBLE_DEVICESに似ていますが、AMDハードウェア向けです。 |
| OLLAMA_RUNNERS_DIR | システム依存 | ランナーの位置を決める。 効果:ランナー実行ファイルの所在を決定します。 シナリオ:カスタム展開やランナーをメインアプリケーションから分離する必要がある場合に重要です。 |
| OLLAMA_NUM_PARALLEL | 0(無制限) | 並列モデルリクエストの数を設定します。 効果:モデル推論の並行処理を制御します。 シナリオ:システム負荷の管理と高トラフィック環境での応答性確保に不可欠です。 |
| OLLAMA_MAX_LOADED_MODELS | 0(無制限) | 搭載モデルの最大数を設定します。 効果:同時にロードできるモデルの数を制限します。 シナリオ:限られたリソースや多様なモデルの環境でのメモリ使用管理を支援します。 |
| OLLAMA_MAX_QUEUE | 512 | キューに入ったリクエストの最大数を設定します。 効果:リクエストキューのサイズを制限します。 シナリオ:トラフィックの急増時のシステム過負荷を防ぎ、リクエストのタイムリーな処理を保証します。 |
| OLLAMA_MAX_VRAM | 0(無制限) | 最大VRAMオーバーライドをバイト単位で設定します。 効果:使用できるVRAMの量を制限します。 シナリオ:共有GPU環境において、単一のプロセスがGPUメモリを独占するのを防ぐために有用です。 |