[AI] (9) Kasuta vLLM-i ettevõtte tasandi DeepSeek-R1 mudelite juurutust

Väike sodi · Postitatud 06.03.2025 11:23:03

Nõuded: Olen varem kasutanud deepseek-r1:32b mudelit Ollamaga, mis on väga mugav ja kiire, sobiv isiklikuks kiireks kasutuselevõtuks. Kui tegemist on ettevõtte tootmiskeskkonnaga, kuidas seda tuleks juurutada? Üldiselt kasutatakse juurutamiseks vllm ja sglang ning selles artiklis kasutatakse vLLM-i DeepSeek-R1 mudeli juurutamiseks.

Ollama vs. vLLM

Erinevused on järgmised:

Kontrastmõõtmed	Ollama	vLLM
Tuuma positsioneerimine	Kerged lokaliseerimistööriistad üksikutele arendajatele ja väiksemahulistele katsetustele	Tootmistaseme järeldamisraamistik, mis keskendub ettevõtte tasandi stsenaariumitele, kus on kõrge samaaegsus ja madal latentsus
Riistvaranõuded	Toetab CPU-d ja GPU-d, väike mälukasutus (kasutab vaikimisi kvantimismudelit)	Tuleb toetuda NVIDIA GPU-dele, millel on suur mälukasutus
Mudeli tugi	Sisseehitatud eeltreenitud mudeliteek (toetab 1700+ mudelit), kvantitatiivsete versioonide automaatne allalaadimine (peamiselt int4)	Originaalmudelifaili käsitsi allalaadimine (nt HuggingFace formaat) toetab laiemat mudelite valikut
Kasutuselevõtu raskus	Ühe nupu paigaldus ja karbist välja kasutamine ilma programmeerimisbaasi nõudmata	Vajalik on Python keskkond ja CUDA draiver ning vajalik on tehniline kogemus
Jõudlusomadused	Ühe järelduse kiirus on kiire, kuid samaaegsuse töötlemise võimekus on nõrk	Kõrge läbilaskevõime, dünaamilise partiitöötluse tugi ja tuhanded samaaegsed päringud
Ressursside haldamine	Reguleeri ressursikasutust paindlikult ja vabasta videomälu automaatselt, kui see on tühikäigul	Videomälu hõivatus on fikseeritud ning ressursid tuleb reserveerida, et tulla toime tippkoormustega

Lühike sissejuhatus vLLM-idesse.

vLLM on kiire ja lihtne LLM-i järelduste ja teenuste raamatukogu.

vLLM uute algoritmidega määratleb LLM-teenuste uusima tehnoloogilise taseme: . Võrreldes HuggingFace Transformersiga pakub see kuni 24 korda suuremat läbilaskevõimet ilma mudeli arhitektuuri muudatusteta. Räsikiiruse poole võrra vähendades ja läbilaskevõimet kümnekordselt suurendades võrdles uuring vLLM-i läbilaskevõimet populaarseima LLM-i teegiga, HuggingFace Transformersiga (HF), ning varasema HuggingFace Text Generation Inference'iga (TGI) SOTA läbilaskevõimega. Lisaks jagas uuring eksperimentaalse seadistuse kaheks tüübiks: LLaMA-7B NVIDIA A10G graafikakaardiga riistvarana; Teine on LLaMA-13B, millel on NVIDIA A100 GPU (40GB) riistvaral. Nad võtsid ShareGPT andmestikust sisendi/väljundi pikkusi. Tulemused näitasid, et vLLM-i läbilaskevõime oli 24 korda suurem kui HF ja 3,5 korda suurem kui TGI-l.

vLLM dokumentatsioon:Hüperlingi sisselogimine on nähtav.
Lähtekoodi aadress:Hüperlingi sisselogimine on nähtav.
Jõudlustestid:Hüperlingi sisselogimine on nähtav.

Sa ei pea pilti mõistma, lehm on läbi!

Keskkonna ettevalmistus

Ostsin Tencent Cloudi kõrgjõudlusega rakendusteenused ja seadistasin need järgmiselt:

Ubuntu 20.04
Keskkonna seadistus: Ubuntu 20.04, draiver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Arvutusvõimsuse tüüp: Kahe kaardiga GPU põhitüüp - 2*16GB+ | 16+TFlops SP | CPU - 16 tuuma | RAM - 64GB

Paigalda Conda

Loo python keskkond condaga, kleebi skript otse:

Sisselogimine on nähtav.

Juuruta DeepSeek-R1 vLLM-i abil

Loo python keskkond koos järgmise käsuga conda'ga:

Sisselogimine on nähtav.

Paigalda vllm ja modelscope järgmiste käskudega:

Sisselogimine on nähtav.

Laadi alla DeepSeek-R1 mudel modelscope'i abil järgmise käsuga:

Sisselogimine on nähtav.

Viide:Hüperlingi sisselogimine on nähtav.

Alusta deepseek mudelit vllm-iga järgmise käsuga:

Sisselogimine on nähtav.

Kui kohtad "Bfloat16 on toetatud ainult GPU-del, mille arvutusvõimsus on vähemalt 8.0. Sinu Tesla T4 GPU-l on arvutusvõimsus 7.5. Float16 saab selle asemel kasutada, seades CLI-s selgelt 'dtype' lipu, näiteks: --dtype=half." Hoiatus, lisa lihtsalt parameetrid vastavalt hoiatusele.

Märkus:

--tensor-paralleelsuuruse ja GPU arvu seaded
--GPU-mälukasutus kontrollib kasutatava mälu protsenti
--served-model-name API-s kasutatav mudelinimi
--disable-log-requests keelab logimispäringud

vLLM Linux GPU paigaldusdokumentatsioon:Hüperlingi sisselogimine on nähtav.
Mootori parameetrid:Hüperlingi sisselogimine on nähtav.

Vaata GPU staatust, nagu allpool näidatud:

Kasuta Postmani teste

Brauser avatud:http://ip:8000/
Liidese dokumentatsioon:http://ip:8000/docs

Postiljoni kõne, nagu näidatud järgmisel pildil:

Sisselogimine on nähtav.

Võrdlusuuringute

Laadige testkood alla järgmise käsuga:

Sisselogimine on nähtav.

Käsk täidetakse järgmiselt:

Sisselogimine on nähtav.

Tulemus: läbilaskevõime: 2,45 taotlust/s, 1569,60 kokku tokenit/s, 1255,68 väljundtokenit/s

(Lõpp)

Väike sodi · Postitatud 12.03.2025 15:14:42

Vllm või sglang Windowsis praegu ei ole toetatud, ja kui tahad seda Windowsis käivitada, võid kasutada WSL-i (Windows Subsystem for Linux).

Väike sodi · Postitatud 18.08.2025 11:46:22

Teised järeldusraamistikud: TensorRT, vLLM, LMDeploy ja MLC-LLM, sglang

[AI] (9) Kasuta vLLM-i ettevõtte tasandi DeepSeek-R1 mudelite juurutust

Seotud postitused

Vaadatud sektsioonid