Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 1547|Odpoveď: 2

[AI] (9) Použitie vLLM na podnikovej úrovni nasadenia modelov DeepSeek-R1

[Kopírovať odkaz]
Zverejnené 6.3.2025 11:23:03 | | | |
Požiadavky: Predtým som nasadil model deepseek-r1:32b s Ollama, ktorý je veľmi pohodlný a rýchly, vhodný na osobné rýchle nasadenie. Ak ide o podnikové produkčné prostredie, ako by sa malo nasadiť? Vo všeobecnosti sa na nasadenie používajú vllm a sglang a tento článok používa vLLM na nasadenie modelu DeepSeek-R1.

Ollama vs. vLLM

Rozdiely sú nasledovné:

Kontrastné rozmeryOllamavLLM
Umiestnenie jadraĽahké lokalizačné nástroje pre jednotlivých vývojárov a malé experimentyProdukčný inferenčný rámec so zameraním na podnikové scenáre s vysokou súbežnosťou a nízkou latenciou
Hardvérové požiadavkyPodporuje CPU a GPU, nízku pamäťovú náročnosť (štandardne používa kvantizačný model)Musím sa spoliehať na NVIDIA GPU, ktoré majú vysokú spotrebu pamäte
Podpora modelovVstavaná knižnica predtrénovaných modelov (podporuje 1700+ modelov), automatické sťahovanie kvantitatívnych verzií (hlavne int4)Manuálne stiahnutie pôvodného modelového súboru (napr. formát HuggingFace) podporuje širšiu škálu modelov
Náročnosť nasadeniaInštalácia jedným tlačidlom a použitie hneď po vybalení bez potreby programovaniaVyžaduje sa prostredie Python a ovládač CUDA, ako aj technické skúsenosti
Výkonnostné charakteristikyRýchlosť jedného inferenčného výkonu je vysoká, ale schopnosť spracovania súbežnosti je slabáVysoká priepustnosť, podpora dynamického dávkového spracovania a tisíce súbežných požiadaviek
Správa zdrojovFlexibilne upravovať využitie zdrojov a automaticky uvoľňovať video pamäť počas nečinnostiObsadenosť video pamäte je pevná a zdroje je potrebné vyhradiť na zvládnutie špičkových záťaží


Krátky úvod do vLLM

vLLM je rýchla a ľahko použiteľná knižnica LLM inferencie a služieb.

vLLM s novými algoritmami redefinuje najnovšiu technologickú úroveň LLM služieb: . V porovnaní s HuggingFace Transformers ponúka až 24-krát vyššiu priepustnosť bez akýchkoľvek zmien v architektúre modelu. Po znížení hashrate na polovicu a desaťnásobnom zvýšení priepustnosti štúdia porovnala priepustnosť vLLM s najpopulárnejšou knižnicou LLM, HuggingFace Transformers (HF), a predchádzajúcou metódou HuggingFace Text Generation Inference (TGI) s priepustnosťou SOTA. Okrem toho štúdia rozdelila experimentálne nastavenie na dva typy: LLaMA-7B s grafickou kartou NVIDIA A10G ako hardvérom; Druhý je LLaMA-13B s grafickou kartou NVIDIA A100 (40GB) na hardvéri. Vzorkovali dĺžky vstupov/výstupov z datasetu ShareGPT. Výsledky ukázali, že priepustnosť vLLM bola 24-krát vyššia ako HF a 3,5-krát vyššia ako TGI.

dokumentácia vLLM:Prihlásenie na hypertextový odkaz je viditeľné.
Adresa zdrojového kódu:Prihlásenie na hypertextový odkaz je viditeľné.
Testovanie výkonu:Prihlásenie na hypertextový odkaz je viditeľné.



Nemusíš rozumieť obrazu, krava je hotová!

Environmentálna príprava

Zakúpil som si vysokovýkonné aplikačné služby Tencent Cloud a nakonfiguroval ich nasledovne:

Ubuntu 20.04
Konfigurácia prostredia: Ubuntu 20.04, ovládač 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Typ výpočtovej spotreby: Dvojkartový GPU základný typ - 2*16GB+ | 16+TFlops SP | CPU - 16 jadier | RAM - 64GB

Inštalujte Condu

Vytvorte python prostredie s conda, vložte skript priamo:


Nasadenie DeepSeek-R1 pomocou vLLM

Vytvorte python prostredie s conda pomocou nasledujúceho príkazu:


Nainštalujte vllm a modelscope pomocou nasledujúcich príkazov:


Stiahnite si model DeepSeek-R1 pomocou modelscope pomocou nasledujúceho príkazu:


Referencia:Prihlásenie na hypertextový odkaz je viditeľné.

Spustite model deepseek pomocou VLLM s nasledujúcim príkazom:




Ak narazíte na "Bfloat16", je podporovaný iba na GPU s výpočtovou kapacitou aspoň 8.0. Vaša Tesla T4 GPU má výpočtovú kapacitu 7.5. Namiesto toho môžete použiť float16 explicitným nastavením príznaku 'dtype' v CLI, napríklad: --dtype=half." Upozornenie, jednoducho pridajte parametre podľa varovania.

Poznámka:

  • --nastavenia veľkosti tenzora paralelne a počtu GPU
  • --GPU-využitie pamäte kontroluje percento využitej pamäte
  • --served-model-name Názov modelu použitý v API
  • --disaktiv-log-requests deaktivuje logging requesty


Dokumentácia k inštalácii GPU Linux vLLM:Prihlásenie na hypertextový odkaz je viditeľné.
Parametre motora:Prihlásenie na hypertextový odkaz je viditeľné.

Pozrite si stav GPU, ako je uvedené nižšie:



Použite testy poštára

Otvorený prehliadač:http://ip:8000/
Dokumentácia rozhrania:http://ip:8000/docs



Výzva poštára, ako je znázornené na nasledujúcom obrázku:




Benchmarking

Stiahnite si testovací kód pomocou nasledujúceho príkazu:


Príkaz sa vykonáva nasledovne:


Výsledok: Priepustnosť: 2,45 požiadavky/s, 1569,60 celkovo tokenov/s, 1255,68 výstupných tokenov/s



(Koniec)




Predchádzajúci:Domáca sieť začína s GL-MT3000 routerom
Budúci:Webmasterov vlastný mediálny účet
 Prenajímateľ| Zverejnené 12. marca 2025 o 15:14:42 |
Používanie vllm alebo sglang na Windows momentálne nie je podporované, a ak ho chcete spustiť na Windows, môžete použiť WSL (Windows Subsystem for Linux).
 Prenajímateľ| Zverejnené 18.8.2025 o 11:46:22 |
Ďalšie inferenčné rámce: TensorRT, vLLM, LMDeploy a MLC-LLM, sglang
Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com