[AI] (9) Použitie vLLM na podnikovej úrovni nasadenia modelov DeepSeek-R1

Malý · Zverejnené 6. 3. 2025 11:23:03

Požiadavky: Predtým som nasadil model deepseek-r1:32b s Ollama, ktorý je veľmi pohodlný a rýchly, vhodný na osobné rýchle nasadenie. Ak ide o podnikové produkčné prostredie, ako by sa malo nasadiť? Vo všeobecnosti sa na nasadenie používajú vllm a sglang a tento článok používa vLLM na nasadenie modelu DeepSeek-R1.

Ollama vs. vLLM

Rozdiely sú nasledovné:

Kontrastné rozmery	Ollama	vLLM
Umiestnenie jadra	Ľahké lokalizačné nástroje pre jednotlivých vývojárov a malé experimenty	Produkčný inferenčný rámec so zameraním na podnikové scenáre s vysokou súbežnosťou a nízkou latenciou
Hardvérové požiadavky	Podporuje CPU a GPU, nízku pamäťovú náročnosť (štandardne používa kvantizačný model)	Musím sa spoliehať na NVIDIA GPU, ktoré majú vysokú spotrebu pamäte
Podpora modelov	Vstavaná knižnica predtrénovaných modelov (podporuje 1700+ modelov), automatické sťahovanie kvantitatívnych verzií (hlavne int4)	Manuálne stiahnutie pôvodného modelového súboru (napr. formát HuggingFace) podporuje širšiu škálu modelov
Náročnosť nasadenia	Inštalácia jedným tlačidlom a použitie hneď po vybalení bez potreby programovania	Vyžaduje sa prostredie Python a ovládač CUDA, ako aj technické skúsenosti
Výkonnostné charakteristiky	Rýchlosť jedného inferenčného výkonu je vysoká, ale schopnosť spracovania súbežnosti je slabá	Vysoká priepustnosť, podpora dynamického dávkového spracovania a tisíce súbežných požiadaviek
Správa zdrojov	Flexibilne upravovať využitie zdrojov a automaticky uvoľňovať video pamäť počas nečinnosti	Obsadenosť video pamäte je pevná a zdroje je potrebné vyhradiť na zvládnutie špičkových záťaží

Krátky úvod do vLLM

vLLM je rýchla a ľahko použiteľná knižnica LLM inferencie a služieb.

vLLM s novými algoritmami redefinuje najnovšiu technologickú úroveň LLM služieb: . V porovnaní s HuggingFace Transformers ponúka až 24-krát vyššiu priepustnosť bez akýchkoľvek zmien v architektúre modelu. Po znížení hashrate na polovicu a desaťnásobnom zvýšení priepustnosti štúdia porovnala priepustnosť vLLM s najpopulárnejšou knižnicou LLM, HuggingFace Transformers (HF), a predchádzajúcou metódou HuggingFace Text Generation Inference (TGI) s priepustnosťou SOTA. Okrem toho štúdia rozdelila experimentálne nastavenie na dva typy: LLaMA-7B s grafickou kartou NVIDIA A10G ako hardvérom; Druhý je LLaMA-13B s grafickou kartou NVIDIA A100 (40GB) na hardvéri. Vzorkovali dĺžky vstupov/výstupov z datasetu ShareGPT. Výsledky ukázali, že priepustnosť vLLM bola 24-krát vyššia ako HF a 3,5-krát vyššia ako TGI.

dokumentácia vLLM:Prihlásenie na hypertextový odkaz je viditeľné.
Adresa zdrojového kódu:Prihlásenie na hypertextový odkaz je viditeľné.
Testovanie výkonu:Prihlásenie na hypertextový odkaz je viditeľné.

Nemusíš rozumieť obrazu, krava je hotová!

Environmentálna príprava

Zakúpil som si vysokovýkonné aplikačné služby Tencent Cloud a nakonfiguroval ich nasledovne:

Ubuntu 20.04
Konfigurácia prostredia: Ubuntu 20.04, ovládač 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Typ výpočtovej spotreby: Dvojkartový GPU základný typ - 2*16GB+ | 16+TFlops SP | CPU - 16 jadier | RAM - 64GB

Inštalujte Condu

Vytvorte python prostredie s conda, vložte skript priamo:

Prihlásenie je viditeľné.

Nasadenie DeepSeek-R1 pomocou vLLM

Vytvorte python prostredie s conda pomocou nasledujúceho príkazu:

Prihlásenie je viditeľné.

Nainštalujte vllm a modelscope pomocou nasledujúcich príkazov:

Prihlásenie je viditeľné.

Stiahnite si model DeepSeek-R1 pomocou modelscope pomocou nasledujúceho príkazu:

Prihlásenie je viditeľné.

Referencia:Prihlásenie na hypertextový odkaz je viditeľné.

Spustite model deepseek pomocou VLLM s nasledujúcim príkazom:

Prihlásenie je viditeľné.

Ak narazíte na "Bfloat16", je podporovaný iba na GPU s výpočtovou kapacitou aspoň 8.0. Vaša Tesla T4 GPU má výpočtovú kapacitu 7.5. Namiesto toho môžete použiť float16 explicitným nastavením príznaku 'dtype' v CLI, napríklad: --dtype=half." Upozornenie, jednoducho pridajte parametre podľa varovania.

Poznámka:

--nastavenia veľkosti tenzora paralelne a počtu GPU
--GPU-využitie pamäte kontroluje percento využitej pamäte
--served-model-name Názov modelu použitý v API
--disaktiv-log-requests deaktivuje logging requesty

Dokumentácia k inštalácii GPU Linux vLLM:Prihlásenie na hypertextový odkaz je viditeľné.
Parametre motora:Prihlásenie na hypertextový odkaz je viditeľné.

Pozrite si stav GPU, ako je uvedené nižšie:

Použite testy poštára

Otvorený prehliadač:http://ip:8000/
Dokumentácia rozhrania:http://ip:8000/docs

Výzva poštára, ako je znázornené na nasledujúcom obrázku:

Prihlásenie je viditeľné.

Benchmarking

Stiahnite si testovací kód pomocou nasledujúceho príkazu:

Prihlásenie je viditeľné.

Príkaz sa vykonáva nasledovne:

Prihlásenie je viditeľné.

Výsledok: Priepustnosť: 2,45 požiadavky/s, 1569,60 celkovo tokenov/s, 1255,68 výstupných tokenov/s

(Koniec)

Malý · Zverejnené 12. 3. 2025 15:14:42

Používanie vllm alebo sglang na Windows momentálne nie je podporované, a ak ho chcete spustiť na Windows, môžete použiť WSL (Windows Subsystem for Linux).

Malý · Zverejnené 18. 8. 2025 11:46:22

Ďalšie inferenčné rámce: TensorRT, vLLM, LMDeploy a MLC-LLM, sglang

[AI] (9) Použitie vLLM na podnikovej úrovni nasadenia modelov DeepSeek-R1

Súvisiace príspevky

Zobrazené sekcie