[AI] (9) A vLLM vállalati szintű DeepSeek-R1 modellek telepítése

Kis szemét · Közzétéve 2025. 03. 06. 11:23:03

Követelmények: Korábban már telepítettem a deepseek-r1:32b modellt Ollama-val, ami nagyon kényelmes és gyors, alkalmas személyes, gyors telepítésre. Ha ez egy vállalati gyártási környezet, hogyan kellene telepíteni? Általában a vllm és a sglang használata a telepítéshez, és ez a cikk a vLLM-et használja a DeepSeek-R1 modell telepítéséhez.

Ollama vs. vLLM

A különbségek a következők:

Kontrasztdimenziók	Ollama	vLLM
Mag pozícionálás	Könnyű lokalizációs eszközök egyéni fejlesztők és kisebb léptékű kísérletek számára	Termelési szintű következtetési keretrendszer, amely vállalati szintű forgatókönyvekre fókuszál, magas egyidejű és alacsony késleltetésű
Harverkövetelmények	Támogatja a CPU-t és GPU-t, alacsony memóriaigényt (alapértelmezés szerint kvantáló modellt használ)	NVIDIA GPU-kra kell támaszkodni, amelyek magas memóriahasználattal rendelkeznek
Modell támogatás	Beépített előre beképzett modellkönyvtár (támogatja az 1700+ modellt), automatikus mennyiségi verziók letöltése (főként int4)	Az eredeti modellfájl manuális letöltése (pl. HuggingFace formátum) szélesebb modellválasztékot támogat
A telepítés nehézségei	Egy gombos telepítés és dobozból kirendelt használat programozási alap nélkül	Python környezet és CUDA driver, valamint műszaki tapasztalat szükséges
Teljesítményjellemzők	Az egyetlen következtetés sebessége gyors, de az egyidejű feldolgozás képessége gyenge	Nagy áteresztőképesség, dinamikus köteges feldolgozás támogatása és több ezer párhuzamos kérés
Erőforrás-kezelés	Rugalmasan állítsd be az erőforrás-felhasználást, és automatikusan szabadítsd ki a videómemóriát tétlen állapotban	A videómemória elfoglaltsága fix, és erőforrásokat kell fenntartani a csúcsterhelések kezelésére

Rövid bevezetés a vLLM-ekhez

A vLLM egy gyors és könnyen használható könyvtár LLM következtetéseket és szolgáltatásokat.

A vLLM új algoritmusokkal újradefiniálja az LLM szolgáltatások legújabb technológiai szintjét: . A HuggingFace Transformershez képest akár 24-szer nagyobb áteresztőképességet kínál modellarchitektúra módosítása nélkül. A hashrate-t felére csökkentve és az áteresztőképesség tízszeresére növelve a vLLM áteresztőképességét a legnépszerűbb LLM könyvtárral, a HuggingFace Transformers-szel (HF) és a korábbi HuggingFace Text Generation Inference-vel (TGI) összehasonlította a SOTA áteresztőképességgel. Ezen felül a tanulmány a kísérleti beállítást két típusra osztotta: LLaMA-7B NVIDIA A10G GPU-val hardverként; A másik az LLaMA-13B, NVIDIA A100 GPU-val (40GB) hardveren. Mintavételezték a ShareGPT adathalmazból a bemeneti/kimeneti hosszokat. Az eredmények azt mutatták, hogy a vLLM áteresztőképessége 24-szer magasabb volt, mint a HF-é, és 3,5-szer magasabb, mint a TGI-é.

vLLM dokumentáció:A hiperlink bejelentkezés látható.
Forráskód cím:A hiperlink bejelentkezés látható.
Teljesítménytesztelés:A hiperlink bejelentkezés látható.

Nem kell értened a képet, a tehén vége!

Környezeti előkészítés

Megvásároltam a Tencent Cloud nagy teljesítményű alkalmazásszolgáltatásait, és a következőképpen konfiguráltam őket:

Ubuntu 20.04
Környezet konfiguráció: Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Számítási teljesítménytípus: Kétkártyás GPU alap típus - 2*16GB+ | 16+TFlops SP | CPU - 16 mag | RAM - 64GB

Telepítsd a Condát

Hozz létre python környezetet condával, illesztsd be közvetlenül a szkriptet:

A bejelentkezés látható.

Telepítse a DeepSeek-R1-et egy vLLM segítségével

Hozz létre python környezetet condával a következő parancskal:

A bejelentkezés látható.

Telepítse a vllm-et és a modelscope-ot a következő parancsokkal:

A bejelentkezés látható.

Töltse le a DeepSeek-R1 modellt modellscope segítségével a következő parancs segítségével:

A bejelentkezés látható.

Utalás:A hiperlink bejelentkezés látható.

Indítsd el a deepseek modellt a vllm-mel a következő parancsval:

A bejelentkezés látható.

Ha azt tapasztalod, hogy "a Bfloat16 csak olyan GPU-kon támogatott, amelyek számítási kapacitása legalább 8.0. A Tesla T4 GPU-d 7,5-ös számítási kapacitással rendelkezik. Használhatod a float16-ot helyette, ha kifejezetten beállítod a 'dtype' zászlót a CLI-ben, például: --dtype=half." Figyelem: csak add hozzá a paramétereket a figyelmeztetés szerint.

Megjegyzés:

--tensor-párhuzamos méret és GPU szám beállítások
--gpu-memory-utilization szabályozza a memória használatának százalékát
--served-model-name Az API-ban használt modellnév
--disenabled-log-requests letiltja a naplózási kéréseket

vLLM Linux GPU telepítési dokumentáció:A hiperlink bejelentkezés látható.
Motor paraméterek:A hiperlink bejelentkezés látható.

Nézd meg a GPU állapotát az alábbiak szerint:

Postman tesztek használata

Böngésző megnyitva:http://ip:8000/
Felületi dokumentáció:http://ip:8000/docs

Postás hívás, ahogy az alábbi képen látható:

A bejelentkezés látható.

Teljesítményértékelés

Töltse le a tesztkódot a következő parancsot:

A bejelentkezés látható.

A parancs a következőképpen történik:

A bejelentkezés látható.

Eredmény: Áteresztőképesség: 2,45 kérés/s, 1569,60 összesen token/s, 1255,68 kimeneti token/s

(Vége)

Kis szemét · Közzétéve 2025. 03. 12. 15:14:42

Jelenleg a vllm vagy a sglang használata Windowson nem támogatott, és ha Windowson akarod futtatni, használhatod helyette a WSL-t (Windows Subsystem for Linux).

Kis szemét · Közzétéve 2025. 08. 18. 11:46:22

Egyéb következtetési keretrendszerek: TensorRT, vLLM, LMDeploy és MLC-LLM, sglang

[AI] (9) A vLLM vállalati szintű DeepSeek-R1 modellek telepítése

Kapcsolódó bejegyzések

Megtekintett szakaszok