この記事は機械翻訳のミラー記事です。元の記事にジャンプするにはこちらをクリックしてください。

眺める: 1547|答える: 2

[AI] (9) DeepSeek-R1モデルのvLLMエンタープライズレベルの展開を活用

[リンクをコピー]
2025年3月6日 11:23:03に投稿 | | | |
要件:以前、Ollamaでdeepseek-r1:32bモデルを導入したことがありますが、非常に便利で高速、個人の迅速な展開に適しています。 もしエンタープライズ本番環境であれば、どのように展開すべきでしょうか? 一般的に、vllmとsglangがデプロイメントに使用され、本記事ではDeepSeek-R1モデルを展開するためにvLLMを使用しています。

オラマ vs. vLLM

違いは以下の通りです:

コントラスト寸法オヤマvLLM
コアの位置個々の開発者や小規模実験のための軽量ローカライゼーションツール高並行性と低遅延を持つエンタープライズレベルのシナリオに焦点を当てた本番レベルの推論フレームワーク
ハードウェア要件CPUとGPUをサポートし、低メモリ使用量(デフォルトで量子化モデルを使用)メモリ使用量が多いNVIDIA GPUに頼らざるを得ません
モデルサポート内蔵の事前学習済みモデルライブラリ(1700+モデル対応)、定量版(主にint4)の自動ダウンロードオリジナルモデルファイルの手動ダウンロード(例:HuggingFace形式)は、より幅広いモデルに対応しています
配備の難しさワンボタンでインストールでき、プログラミングベースなしで箱から出して使えますPython環境とCUDAドライバーが必要で、技術的な経験も求められます
性能特性単一推論速度は高速ですが、並行処理能力は弱いです高スループット、動的バッチ処理のサポート、数千の同時リクエスト
資源管理リソース使用を柔軟に調整し、アイドル時に自動的にビデオメモリを解放しますビデオメモリの占有率は固定されており、ピーク負荷に対応するためにリソースを予約する必要があります


vLLMの簡単な紹介

vLLMは、LLM推論とサービスの高速かつ使いやすいライブラリです。

新しいアルゴリズムを用いたvLLMは、LLMサービスの最新技術レベルを再定義します。 HuggingFace Transformersと比べて、モデルアーキテクチャの変更なしで最大24倍のスループットを提供します。 ハッシュレートを半減しスループットを10倍に増加させた研究では、vLLMのスループットを最も人気のあるLLMライブラリであるHuggingFace Transformers(HF)およびSOTAスループットのHuggingFaceテキスト生成推論(TGI)と比較していました。 さらに、研究では実験セットアップを2つのタイプに分けました:NVIDIA A10G GPUを搭載したLLaMA-7B、 もう1つはLLaMA-13Bで、ハードウェアにはNVIDIA A100 GPU(40GB)を搭載しています。 彼らはShareGPTデータセットから入出力の長さをサンプリングしました。 結果は、vLLMのスループットがHFの24倍、TGIの3.5倍であることを示しました。

vLLMドキュメント:ハイパーリンクのログインが見えます。
ソースコードアドレス:ハイパーリンクのログインが見えます。
パフォーマンステスト:ハイパーリンクのログインが見えます。



写真を理解しなくても大丈夫、牛はもう完成しています!

環境準備

私はTencent Cloudの高性能アプリケーションサービスを購入し、以下のように設定しました:

Ubuntu 20.04
環境構成:Ubuntu 20.04、ドライバ 525.105.17、Python 3.8、CUDA 12.0、cuDNN 8
計算能力タイプ:2枚カードGPU基本タイプ - 2*16GB+ | 16+TFlops SP | CPU - 16コア | RAM - 64GB

Condaをインストール

CondaでPython環境を作成し、スクリプトを直接貼り付けます:


vLLMを使ってDeepSeek-R1を展開する

以下のコマンドでcondaを使ってPython環境を作成します:


以下のコマンドでvllmとmodelscopeをインストールします:


以下のコマンドでmodelscopeを使ってDeepSeek-R1モデルをダウンロードしてください:


参考:ハイパーリンクのログインが見えます。

以下のコマンドでVLMを使ってディープシークモデルを起動します:




「Bfloat16は少なくとも8.0の計算能力を持つGPUでのみサポートされています」という質問に遭遇した場合、 あなたのTesla T4 GPUは計算能力7.5です。 例えば、CLIで明示的に'dtype'フラグを設定することでfloat16を使うことができます。--dtype=half.」 警告、警告に従ってパラメータを追加してください。

所見:

  • --テンソル-パラレルサイズとGPUカウント設定
  • --GPUメモリ利用率は使用されるメモリの割合を制御します
  • --served-model-name APIで使用されるモデル名
  • --disable-log-requests はログ要求を無効化します


vLLM Linux GPUインストールドキュメント:ハイパーリンクのログインが見えます。
エンジンのパラメータ:ハイパーリンクのログインが見えます。

以下のようにGPUの状態を確認してください:



郵便配達員テストの活用

ブラウザを開く:http://ip:8000/
インターフェースドキュメント:http://ip:8000/docs



郵便配達員の電話、以下の画像に示されています:




ベンチマーク

以下のコマンドでテストコードをダウンロードしてください:


コマンドの実行方法は以下の通りです:


結果:スループット:2.45リクエスト/秒、合計1569.60トークン/秒、出力トークン1255.68トークン/秒



(終わり)




先の:ホームネットワークはGL-MT3000ルーターから始まります
次に:ウェブマスターのセルフメディアアカウント
 地主| 2025年3月12日 15:14:42に投稿 |
WindowsでVLMやsglangを使うのは現在サポートされていません。Windowsで使いたい場合はWSL(Windows Subsystem for Linux)を使うことができます。
 地主| 2025年8月18日 11:46:22 に投稿 |
その他の推論フレームワーク:TensorRT、vLLM、LMDeployおよびMLC-LLM、sglang
免責事項:
Code Farmer Networkが発行するすべてのソフトウェア、プログラミング資料、記事は学習および研究目的のみを目的としています。 上記の内容は商業的または違法な目的で使用されてはならず、そうでなければ利用者はすべての結果を負うことになります。 このサイトの情報はインターネットからのものであり、著作権紛争はこのサイトとは関係ありません。 ダウンロード後24時間以内に上記の内容を完全にパソコンから削除してください。 もしこのプログラムを気に入ったら、正規のソフトウェアを支持し、登録を購入し、より良い本物のサービスを受けてください。 もし侵害があれば、メールでご連絡ください。

Mail To:help@itsvse.com