【AI】(3) Tencent CloudがHAIチュートリアル付きDeepSeek-R1を展開

クズども · 掲載地 2025/02/05 21:14:04

Hyper Application Inventor(HAI)は、AIおよび科学計算向けのGPUアプリケーションサービス製品であり、プラグアンドプレイの計算能力と共通環境を提供し、中小企業や開発者がLLMを迅速に展開できるよう支援します。

住所：ハイパーリンクのログインが見えます。

HAIサーバーとGPUサーバーの違い

GPUクラウドサーバー利用の閾値を大幅に下げ、製品体験を多角的に最適化し、箱からすぐに使えるようにしてください。以下の図に示されています。

HAI計算能力の購入

購入ページにアクセスし、基本環境「Ubuntu 20.04」イメージを選択し、環境を設定します:Ubuntu 20.04、ドライバー 525.105.17、Python 3.8、CUDA 12.0、cuDNN 8画像にはすでにドライバーがインストールされており、下の図のように使いながら支払うことを選びました。

ビデオメモリ:32GB+
ハッシュレート:15+TFlops SP
CPU:8~10コア
RAM:40GB

数分待つとインスタンスが正常に作成され、アカデミックアクセラレーションが有効化されます。以下の図に示されています:

初めて使うときはパスワードをリセットし、ログインユーザー名は以下の通りです:ウブントゥ。サーバーにログインして、以下のコマンドでNVIDIA GPUドライバーの情報を確認してください:

ログインが見えます。

以下に示すように:

オラマをインストール

オラマ公式ウェブサイト:ハイパーリンクのログインが見えます。

パッティツールを使ってサーバーにログインし、以下のコマンドでオラマツールのインストールを開始します。

ログインが見えます。

設置は完了しており、出力は以下の通りです。

>>> /usr/localにollamaをインストールする方法
>>> Linux amd64バンドルのダウンロード
######################################################################## 100.0%
>>> オラマ使いの作成...
>>> ollamaユーザーをレンダリンググループに追加する...
>>> オラマユーザーをビデオグループに追加...
>>> 現在のユーザーをオラマグループに追加する...
>>> オラマシステムドサービスの作成...
>>> オラマサービスの開始と有効化...
/etc/systemd/system/ollama.service → symlink /etc/systemd/system/ollama.service を作成しました。

バージョンコマンド:ollama -v をチェックしてください
現在メモリに読み込まれているモデルを参照してください:ollama ps。

以下のコマンドでカスタムモデルストレージフォルダを作成します:

ログインが見えます。

デフォルトのリスニングアドレスとモデルの記憶パスを変更してください(デフォルトのポートを変更するとコマンドが失敗します)。そして以下のコマンドを使用します。

ログインが見えます。

deepseek-r1モデルを展開してください

deepseek-r1:8bモデルを以下のコマンドで実行します:

ログインが見えます。

以下に示すように:

以下の通りにダイアログをテストしてください:

ファイアウォールはTCPポート11434を解放し、HTTPインターフェースを呼び出します。以下の図に示されています:

{
  「モデル」:[
{
   「名前」:「deepseek-r1:8b」
   「モデル」:「DeepSeek-R1:8B」
   「サイズ」:6930032640、
   「ダイジェスト」:「28F8FD6CDC677661426adab9338ce3C013D7E69A5BEA9E704B364171A5D61A10」
   「詳細」:{
      「parent_model」: 「」
      「format」: 「gguf」
      「家族」:「ラマ」
      「家族」:[
      「ラマ」
      ],
      「parameter_size」:「8.0B」、
      「quantization_level」:「Q4_K_M」
   },
   「expires_at」:「2025-02-05T21:14:50.715753614+08:00」
   「size_vram」:6930032640
}
  ]
}

参考：
ハイパーリンクのログインが見えます。
ハイパーリンクのログインが見えます。
ハイパーリンクのログインが見えます。

クズども · 掲載地 2025/02/05 21:22:49

モデルが一定期間リクエストや入力を受け取らない場合、Ollamaはリソース節約のためにクラウドセンターで自動的にモデルを終了します。

クズども · 掲載地 2025/02/06 9:03:57

ollama 環境変数構成項目

変数	既定値	説明 + 効果 + シナリオ
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]ハイパーリンクのログインが見えます。"	オラマサーバーのホストとスキームの設定を行います。効果:オラマサーバーに接続する際に使われるURLを決定します。シナリオ:分散環境でOllamaを展開する場合や、特定のネットワークインターフェース上でサービスを公開する必要がある場合に有用です。
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	コンフィギュレーションはCORSの起源を決定可能にしました。効果:オリジンがオラマサーバーにリクエストを行えるかを制御します。シナリオ:異なるドメインからの不正アクセスを防ぐために、Ollamaをウェブアプリケーションと統合する際に非常に重要です。
OLLAMA_MODELS	$HOME/.ollama/models	モデルディレクトリへのパスを設定します。効果:モデルファイルの保存場所と読み込み先を決定します。シナリオ:異なるドライブのディスク容量管理や、マルチユーザー環境での共有モデルリポジトリの設定に有用です。
OLLAMA_KEEP_ALIVE	5分	モデルがメモリにどれだけ長く残るかを設定します。効果:使用後モデルがメモリに残る持続時間を制御します。シナリオ:長時間のクエリは頻繁なクエリの応答時間を短縮しますが、メモリ使用量は増加します。短時間はリソースを解放しますが、初期対応時間が長くなる可能性があります。
OLLAMA_DEBUG	false	追加のデバッグ情報を可能にします。効果:ログやデバッグの出力が冗長化します。シナリオ:開発や展開中のトラブルシューティングやシステムの挙動を理解するのに非常に有用です。
OLLAMA_FLASH_ATTENTION	false	実験的なフラッシュ注意機能を有効にします。効果:注意メカニズムの実験的最適化を活性化します。シナリオ:互換性のあるハードウェアで性能を向上させる可能性がありますが、不安定さを引き起こす可能性があります。
OLLAMA_NOHISTORY	false	readline履歴を無効にします。効果:指揮履歴の保存を妨げる。シナリオ:コマンド履歴を永続化すべきでないセキュリティに敏感な環境で有用です。
OLLAMA_NOPRUNE	false	起動時のモデルブロブの剪定を無効にします。効果:すべてのモデルブロブを保持し、ディスク使用量を増やす可能性があります。シナリオ:互換性やロールバックのためにすべてのモデルバージョンを維持する必要がある場合に役立ちます。
OLLAMA_SCHED_SPREAD	false	すべてのGPUでモデルをスケジューリングできます。効果:モデル推論のためのマルチGPU利用を可能にします。シナリオ:複数のGPUを搭載した高性能コンピューティング環境で、ハードウェアの利用効率を最大化するのが有益です。
OLLAMA_INTEL_GPU	false	実験的なIntel GPU検出を可能にします。効果:モデル推論にIntel GPUの使用を可能にします。シナリオ:AIワークロードにIntel GPUハードウェアを活用する組織にとって有用です。
OLLAMA_LLM_LIBRARY	「」(自動検出)	LLMライブラリの使用を設定します。効果:LLMライブラリの自動検出を上書きします。シナリオ:互換性やパフォーマンスの理由で特定のライブラリのバージョンや実装を強制する必要がある場合に有用です。
OLLAMA_TMPDIR	システムのデフォルト一時ディレクトリ	一時ファイルの場所を設定します。効果:一時ファイルの保存場所を決定します。シナリオ:I/O性能管理やシステム一時ディレクトリの容量が限られている場合に重要です。
CUDA_VISIBLE_DEVICES	すべて利用可能です	どのNVIDIAデバイスが見えるかをセットします。効果:使用できるNVIDIA GPUを制御します。シナリオ:マルチユーザーまたはマルチプロセス環境でのGPU割り当て管理に不可欠です。
HIP_VISIBLE_DEVICES	すべて利用可能です	どのAMDデバイスが見えるかのセットです。効果:どのAMDGPUが使えるかを制御します。シナリオ:CUDA_VISIBLE_DEVICESに似ていますが、AMDハードウェア向けです。
OLLAMA_RUNNERS_DIR	システム依存	ランナーの位置を決める。効果:ランナー実行ファイルの所在を決定します。シナリオ:カスタム展開やランナーをメインアプリケーションから分離する必要がある場合に重要です。
OLLAMA_NUM_PARALLEL	0(無制限)	並列モデルリクエストの数を設定します。効果:モデル推論の並行処理を制御します。シナリオ:システム負荷の管理と高トラフィック環境での応答性確保に不可欠です。
OLLAMA_MAX_LOADED_MODELS	0(無制限)	搭載モデルの最大数を設定します。効果:同時にロードできるモデルの数を制限します。シナリオ:限られたリソースや多様なモデルの環境でのメモリ使用管理を支援します。
OLLAMA_MAX_QUEUE	512	キューに入ったリクエストの最大数を設定します。効果:リクエストキューのサイズを制限します。シナリオ:トラフィックの急増時のシステム過負荷を防ぎ、リクエストのタイムリーな処理を保証します。
OLLAMA_MAX_VRAM	0(無制限)	最大VRAMオーバーライドをバイト単位で設定します。効果:使用できるVRAMの量を制限します。シナリオ:共有GPU環境において、単一のプロセスがGPUメモリを独占するのを防ぐために有用です。

源：ハイパーリンクのログインが見えます。

$ オラマヘルプサーブ
始動オラマ

Usage:
  オジャマサーブ[旗]

Aliases:
  サーブ、スタート

Flags:
  -h, --ヘルプヘルプ for serv

環境変数:
   OLLAMA_DEBUG 追加のデバッグ情報を表示する(例:OLLAMA_DEBUG=1)
   OLLAMA_HOST ollamaサーバーのIPアドレス(デフォルト127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE モデルがメモリに読み込まれ続ける期間(デフォルトの「5m」)。
   OLLAMA_MAX_LOADED_MODELS GPUあたりの最大搭載モデル数
   OLLAMA_MAX_QUEUE キューに待たれたリクエストの最大数
   OLLAMA_MODELS モデルディレクトリへのパス
   OLLAMA_NUM_PARALLEL 並列リクエストの最大数
   OLLAMA_NOPRUNE 起動時にモデルの塊を剪定しないでください
   OLLAMA_ORIGINS 許可された起源のカンマ区切りリスト
   OLLAMA_SCHED_SPREAD すべてのGPUで常にモデルをスケジュールしてください
   OLLAMA_TMPDIR 一時ファイルの場所
   OLLAMA_FLASH_ATTENTION フラッシュアテンションを有効にしました
   OLLAMA_LLM_LIBRARY 自動検出を回避するLLMライブラリを設定する
   OLLAMA_GPU_OVERHEAD GPUごとにVRAMの一部(バイト)を予約する
   OLLAMA_LOAD_TIMEOUT モデルロードが停止するまでの期間(デフォルトの「5m」)を許容する時間

参考：ハイパーリンクのログインが見えます。

クズども · 掲載地 2025/02/06 9:19:49

オラマ指揮

オラマリスト:モデル一覧を表示します
オラマショー:モデルに関する情報を表示します
オラマプル:プルモデル
オラマプッシュ:プッシュモデル
オリャマ CP: モデルをコピー
ollama rm: モデルを削除してください
オリャマラン:モデルを走らせる

クズども · 掲載地 2025/02/06 9:33:17

モデル最適化、編集/etc/systemd/system/ollama.service.d/override.conf構成後、以下を追加してください:

ログインが見えます。

完全な構成は以下の通りです:

ログインが見えます。

クズども · 掲載地 2025/02/06 9:35:26

--冗長このパラメータは推論速度(トークン/秒)を表示するために使われます。例えば：

ログインが見えます。

>>> こんにちは、あなたは誰ですか?
<think>

</think>

こんにちは！私は中国のDeepSeekが独立して開発したAIアシスタントで、皆様にお役に立てて光栄です!

総時間:489.831897ms
ロード時間:24.116423ms
プロンプト評価カウント:10トークン
プロンプト評価時間:4ms
プロンプト評価率:2500.00トークン/秒
評価数:36トークン
評価時間:460ms
評価率:78.26トークン/秒
>>>俺はちょっとしたクズだ、名前は?
<think>
で、俺の名前はクズか? よく考えさせてください。子供の頃、両親は私の耳が大きいと思って「リトル・クズバッグ」と名付けていましたが、実際はそれだけです
本当の理由じゃない。子供の頃、いつも指を口に入れてゴミみたいにしていたから「小さなクズ」と呼ばれたからかもしれません。

しかし、今ではその名前は少し奇妙に聞こえ、現代社会の命名スタイルには完全には合っていません。自分に合う名前に変えることを考えるべきだ。まず、自分自身を理解する必要があります
あなたの性格や興味を伝え、意味がありユニークな名前を選ぶことができます。

私は人を助けるのが好きで、聞きやコミュニケーションが得意なので、「知恵」「温かい」「親しみやすい」といった名前を選んでみるのもいいかもしれません。同時に、自分の性格も反映したいと思っています。例えば
本や音楽、スポーツが好きなら、これらの要素を名前に取り入れることができます。

さらに、新しい名前が誤解されたり、記憶されなかったりしないよう注意が必要です。つまり、名前はユニークで認識しやすく、複雑すぎたり普通すぎたりしてはいけません。できます
著名な人物の名前を参照すると、文化的遺産と現代性の両方を持つ人物がいればわかります。

さらに、発音が滑らかかどうか、肯定的な意味があるかどうか、そしてそれが異なる文脈でどのように表現されるかも考慮する必要があります。つまり、名前を選ぶ際には、響きが良いだけでなく、
そこには意味と価値があるはずです。

最後に、家族や友人と連絡を取り、新しい名前に満足してもらい、その名前が私の生活の一部になれるか確認しなければなりません。結局のところ、その名前は単に
識別子は自己表現の一部です。

要するに、シャオ・ジャオは本名ではなく、自分に合う名前を選ぶ権利がある。時間と考え方が必要ですが、自分の性格や興味を慎重に分析することで大切です
名前の意味だけでなく、自分に最もふさわしい名前を見つけられると信じています。
</think>

上記の考えを踏まえ、私は自分の名前を「知恵の星」と名付けることに決めました。この名前は私の創意工夫と温かさ、そして希望の両方を反映しており、私の個人的なセクシュアリティにぴったり合っています
特性。同時に、「星」は光と無限の可能性を象徴し、私に絶えず進歩と成長を追求するインスピレーションを与えてくれます。

**最終名称:ウィズダムスター**

この名前は私の性格に合っているだけでなく、私を誇りに思い、充実感を与えてくれるポジティブなエネルギーに満ちています。

総時間:7.600299527秒
ロード時間:24.37534ms
プロンプト評価カウント:59トークン
プロンプト評価時間:10ms
プロンプト評価率:5900.00トークン/秒
評価数:557トークン
評価時間:6.618秒
評価率:84.16トークン/秒

クズども · 掲載地 2025/02/06 10:22:02

AMD GPU搭載のオラマモデルを展開する
ollama-for-amd:ハイパーリンクのログインが見えます。

参考：ハイパーリンクのログインが見えます。

クズども · 掲載地 2025/02/06 13:26:17

deepseek-r1:32bモデルを実行してください

root@VM-0-8-Ubuntu:~# nvidia-smi
2025年2月6日木曜日 13:25:04
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 ドライバーバージョン:525.105.17 CUDA バージョン:12.0 |
|-------------------------------+----------------------+----------------------+
| GPU 名前 persistence-m| バス識別番号 | 不安定な発砲。 ECC |
| ファン温度パーフ Pwr:使用率/キャップ|       メモリ使用量 | GPU-Util Compute M. |
|                            |                   |             MIG M。
|===============================+======================+======================|
| 0 テスラ V100-SXM2...  オン | 00000000:00:08.0 オフ |                外に |
| 該当なし 65C P0 205W / 300W |  21822MiB / 32768MiB |    89%デフォルト |
|                            |                   |                該当なし |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| プロセス: |
|  GPU GI CI PID TYPE Process name GPU メモリ |
|       ID IDの使用 |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# オラマショー deepseek-r1:32b
  モデル
アーキテクチャ QWEN2
パラメータ 32.8B
コンテキストの長さ131072
埋め込み長 5120
量子化Q4_K_M

  パラメーター
止まる「<|文の始まり|>」
止まる「文の終わり<|>」
止まる「<|User|>」
止まる「<|助手|>」

  ライセンス
MITライセンス
著作権 (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
名前IDサイズプロセッサは
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

クズども · 掲載地 2025/02/08 8:34:18

オラマモデル引力問題の解法
https://www.itsvse.com/thread-10939-1-1.html

クズども · 掲載地 2025/02/13 9:25:04

Jetson AGX Orin(32G)でDeepSeek R1 32bモデルを体験してください:ハイパーリンクのログインが見えます。
ジェットソンは大規模言語モデルを実行します:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent CloudがHAIチュートリアル付きDeepSeek-R1を展開

関連記事