Požiadavky: Predtým som nasadil model deepseek-r1:32b s Ollama, ktorý je veľmi pohodlný a rýchly, vhodný na osobné rýchle nasadenie. Ak ide o podnikové produkčné prostredie, ako by sa malo nasadiť? Vo všeobecnosti sa na nasadenie používajú vllm a sglang a tento článok používa vLLM na nasadenie modelu DeepSeek-R1.
Ollama vs. vLLM
Rozdiely sú nasledovné:
| Kontrastné rozmery | Ollama | vLLM | | Umiestnenie jadra | Ľahké lokalizačné nástroje pre jednotlivých vývojárov a malé experimenty | Produkčný inferenčný rámec so zameraním na podnikové scenáre s vysokou súbežnosťou a nízkou latenciou | | Hardvérové požiadavky | Podporuje CPU a GPU, nízku pamäťovú náročnosť (štandardne používa kvantizačný model) | Musím sa spoliehať na NVIDIA GPU, ktoré majú vysokú spotrebu pamäte | | Podpora modelov | Vstavaná knižnica predtrénovaných modelov (podporuje 1700+ modelov), automatické sťahovanie kvantitatívnych verzií (hlavne int4) | Manuálne stiahnutie pôvodného modelového súboru (napr. formát HuggingFace) podporuje širšiu škálu modelov | | Náročnosť nasadenia | Inštalácia jedným tlačidlom a použitie hneď po vybalení bez potreby programovania | Vyžaduje sa prostredie Python a ovládač CUDA, ako aj technické skúsenosti | | Výkonnostné charakteristiky | Rýchlosť jedného inferenčného výkonu je vysoká, ale schopnosť spracovania súbežnosti je slabá | Vysoká priepustnosť, podpora dynamického dávkového spracovania a tisíce súbežných požiadaviek | | Správa zdrojov | Flexibilne upravovať využitie zdrojov a automaticky uvoľňovať video pamäť počas nečinnosti | Obsadenosť video pamäte je pevná a zdroje je potrebné vyhradiť na zvládnutie špičkových záťaží |
Krátky úvod do vLLM
vLLM je rýchla a ľahko použiteľná knižnica LLM inferencie a služieb.
vLLM s novými algoritmami redefinuje najnovšiu technologickú úroveň LLM služieb: . V porovnaní s HuggingFace Transformers ponúka až 24-krát vyššiu priepustnosť bez akýchkoľvek zmien v architektúre modelu. Po znížení hashrate na polovicu a desaťnásobnom zvýšení priepustnosti štúdia porovnala priepustnosť vLLM s najpopulárnejšou knižnicou LLM, HuggingFace Transformers (HF), a predchádzajúcou metódou HuggingFace Text Generation Inference (TGI) s priepustnosťou SOTA. Okrem toho štúdia rozdelila experimentálne nastavenie na dva typy: LLaMA-7B s grafickou kartou NVIDIA A10G ako hardvérom; Druhý je LLaMA-13B s grafickou kartou NVIDIA A100 (40GB) na hardvéri. Vzorkovali dĺžky vstupov/výstupov z datasetu ShareGPT. Výsledky ukázali, že priepustnosť vLLM bola 24-krát vyššia ako HF a 3,5-krát vyššia ako TGI.
dokumentácia vLLM:Prihlásenie na hypertextový odkaz je viditeľné. Adresa zdrojového kódu:Prihlásenie na hypertextový odkaz je viditeľné. Testovanie výkonu:Prihlásenie na hypertextový odkaz je viditeľné.
Nemusíš rozumieť obrazu, krava je hotová!
Environmentálna príprava
Zakúpil som si vysokovýkonné aplikačné služby Tencent Cloud a nakonfiguroval ich nasledovne:
Ubuntu 20.04 Konfigurácia prostredia: Ubuntu 20.04, ovládač 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Typ výpočtovej spotreby: Dvojkartový GPU základný typ - 2*16GB+ | 16+TFlops SP | CPU - 16 jadier | RAM - 64GB
Inštalujte Condu
Vytvorte python prostredie s conda, vložte skript priamo:
Nasadenie DeepSeek-R1 pomocou vLLM
Vytvorte python prostredie s conda pomocou nasledujúceho príkazu:
Nainštalujte vllm a modelscope pomocou nasledujúcich príkazov:
Stiahnite si model DeepSeek-R1 pomocou modelscope pomocou nasledujúceho príkazu:
Referencia:Prihlásenie na hypertextový odkaz je viditeľné.
Spustite model deepseek pomocou VLLM s nasledujúcim príkazom:
Ak narazíte na "Bfloat16", je podporovaný iba na GPU s výpočtovou kapacitou aspoň 8.0. Vaša Tesla T4 GPU má výpočtovú kapacitu 7.5. Namiesto toho môžete použiť float16 explicitným nastavením príznaku 'dtype' v CLI, napríklad: --dtype=half." Upozornenie, jednoducho pridajte parametre podľa varovania.
Poznámka:
- --nastavenia veľkosti tenzora paralelne a počtu GPU
- --GPU-využitie pamäte kontroluje percento využitej pamäte
- --served-model-name Názov modelu použitý v API
- --disaktiv-log-requests deaktivuje logging requesty
Dokumentácia k inštalácii GPU Linux vLLM:Prihlásenie na hypertextový odkaz je viditeľné. Parametre motora:Prihlásenie na hypertextový odkaz je viditeľné.
Pozrite si stav GPU, ako je uvedené nižšie:
Použite testy poštára
Otvorený prehliadač:http://ip:8000/ Dokumentácia rozhrania:http://ip:8000/docs
Výzva poštára, ako je znázornené na nasledujúcom obrázku:
Benchmarking
Stiahnite si testovací kód pomocou nasledujúceho príkazu:
Príkaz sa vykonáva nasledovne:
Výsledok: Priepustnosť: 2,45 požiadavky/s, 1569,60 celkovo tokenov/s, 1255,68 výstupných tokenov/s
(Koniec) |