[AI] (7) llama.cppを使ってDeepSeek-R1モデルをオンプレミスで展開

クズども · 掲載地 2025/02/07 13:58:06

llama.cpp はじめに

純粋なC/C++を用いたInference MetaのLLaMAモデル(および他モデル)です。主な目標llama.cpp、オンプレミスおよびクラウドのさまざまなハードウェア上で最小限のセットアップと最先端の性能でLLM推論を可能にすることです。

依存関係のない純粋なC/C++実装
Appleシリコンは最高水準で、ARM NEON、Accelerate、Metalフレームワークで最適化されています
AVX、AVX2、AVX512、AMXはx86アーキテクチャをサポートしています
1.5ビット、2ビット、3ビット、4ビット、5ビット、6ビット、8ビット整数量子化により、より高速な推論とメモリ使用量の削減が可能になりました
NVIDIA GPU上でLLMを動作させるためのカスタムCUDAコア(HIP経由のAMD GPU、MUSA経由のMoore Threads MTT GPU)
VulkanおよびSYCLバックエンドサポート
CPU+GPUハイブリッド推論、全体のVRAM容量を上回るモデルを部分的に加速させる

GitHubアドレス:ハイパーリンクのログインが見えます。
ダウンロードアドレス:ハイパーリンクのログインが見えます。

ダウンロードllama.cpp

まず、下図のように、コンピュータのハードウェア構成に応じて対応するllama.cppソフトウェアのバージョンをダウンロードします。

AVXは256ビット幅の動作をサポートしています。
AVX2は256ビット幅の演算もサポートしますが、整数演算やいくつかの追加命令も追加しています。
AVX-512は512ビット幅の演算をサポートし、特に大量のデータや浮動小数点演算を扱う際に並列処理と性能を向上させます。

私のパソコンは純粋なCPUで動作し、avx512命令セットをサポートしています。ですので、「」バージョンをダウンロードしてください。ダウンロードアドレスは以下の通りです:ハイパーリンクのログインが見えます。ダウンロードが完了したら、次のファイルにアンジャックしてくださいD:\llama-b4658-bin-win-avx512-x64ディレクトリ。

DeepSeek-R1モデルをダウンロードしてください

ダウンロードアドレス:ハイパーリンクのログインが見えます。この記事は「DeepSeek-R1-蒸留-Qwen-1.5B-Q3_K_L.gguf例えば。

自分の設定に従ってダウンロードすればいいのです。量子化レベルが高いほどファイルは大きくなり、モデルの精度も高くなります。

llama.cpp DeepSeek-R1モデルの展開

DeepSeek-R1-Distill-Qwen-1.5B-Q3_K_L.ggufファイルディレクトリで以下のコマンドを実行します:

ログインが見えます。

以下に示すように:

ブラウザで開いてくださいhttp://127.0.0.1:8080/アドレスは以下のようにテストされます:

以下は実行パラメータの構成です:ハイパーリンクのログインが見えます。

クズども · 掲載地 2025/03/05 10:48:53

AIモデルコミュニティ

ハグングフェイス公式ウェブサイト:https://huggingface.co/
ハグングフェイス家庭用ミラー:https://hf-mirror.com/
マジックマッチングモデルスコープ:https://www.modelscope.cn/

[AI] (7) llama.cppを使ってDeepSeek-R1モデルをオンプレミスで展開

関連記事

閲覧したセクション