[AI] (9) Naudokite "vLLM" įmonės lygio "DeepSeek-R1" modelių diegimą

Mažai purvo · Paskelbta 2025-03-06 11:23:03

Reikalavimai: Anksčiau esu įdiegęs deepseek-r1:32b modelį su Ollama, kuris yra labai patogus ir greitas, tinkamas asmeniniam greitam diegimui. Jei tai yra įmonės gamybos aplinka, kaip ji turėtų būti diegiama? Paprastai diegimui naudojami vllm ir sglang, o šiame straipsnyje naudojamas vLLM DeepSeek-R1 modeliui diegti.

Ollama prieš vLLM

Skirtumai yra šie:

Kontrasto matmenys	Ollama	vLLM
Šerdies padėtis	Lengvi lokalizavimo įrankiai individualiems kūrėjams ir nedidelio masto eksperimentams	Gamybos lygio išvadų sistema, sutelkianti dėmesį į įmonės lygio scenarijus su dideliu sutapimu ir maža delsa
Techninės įrangos reikalavimai	Palaiko procesorių ir GPU, mažą atminties plotą (pagal numatytuosius nustatymus naudoja kvantavimo modelį)	Turi pasikliauti NVIDIA GPU, kurie naudoja daug atminties
Modelio palaikymas	Integruota iš anksto apmokyta modelių biblioteka (palaiko 1700+ modelių), automatinis kiekybinių versijų atsisiuntimas (daugiausia int4)	Rankinis originalaus modelio failo atsisiuntimas (pvz., "HuggingFace" formatas) palaiko platesnį modelių asortimentą
Diegimo sunkumai	Diegimas vienu mygtuku ir naudojimas iš anksto, nereikalaujant programavimo pagrindo	Reikalinga Python aplinka ir CUDA tvarkyklė, taip pat reikalinga techninė patirtis
Eksploatacinės charakteristikos	Vienos išvados greitis yra didelis, tačiau lygiagrečių apdorojimo galimybės yra silpnos	Didelis pralaidumas, dinaminio paketinio apdorojimo palaikymas ir tūkstančiai užklausų vienu metu
išteklių valdymas	Lanksčiai reguliuokite išteklių naudojimą ir automatiškai atlaisvinkite vaizdo atmintį, kai neveikia	Vaizdo atminties užimtumas yra fiksuotas, todėl reikia rezervuoti išteklius, kad būtų galima susidoroti su didžiausiomis apkrovomis

Trumpas įvadas į vLLM

vLLM yra greita ir lengvai naudojama LLM išvadų ir paslaugų biblioteka.

vLLM su naujais algoritmais iš naujo apibrėžia naujausią LLM paslaugų technologijų lygį: . Palyginti su "HuggingFace Transformers", jis siūlo iki 24 kartų didesnį pralaidumą be jokių modelio architektūros pakeitimų. Perpus sumažinus maišos dažnį ir dešimt kartų padidinus pralaidumą, tyrimas palygino vLLM pralaidumą su populiariausia LLM biblioteka "HuggingFace Transformers" (HF) ir ankstesne "HuggingFace Text Generation Inference" (TGI) su SOTA pralaidumu. Be to, tyrimas suskirstė eksperimentinę sąranką į du tipus: LLaMA-7B su NVIDIA A10G GPU kaip aparatine įranga; Kitas yra LLaMA-13B, su NVIDIA A100 GPU (40 GB) aparatinėje įrangoje. Jie atrinko įvesties / išvesties ilgius iš "ShareGPT" duomenų rinkinio. Rezultatai parodė, kad vLLM pralaidumas buvo 24 kartus didesnis nei HF ir 3,5 karto didesnis nei TGI.

vLLM dokumentacija:Hipersaito prisijungimas matomas.
Šaltinio kodo adresas:Hipersaito prisijungimas matomas.
Našumo testavimas:Hipersaito prisijungimas matomas.

Jums nereikia suprasti paveikslėlio, karvė baigta!

Pasirengimas aplinkai

Įsigijau "Tencent Cloud" didelio našumo programų paslaugas ir sukonfigūravau jas taip:

Ubuntu 20.04
Aplinkos konfigūracija: Ubuntu 20.04, tvarkyklė 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Skaičiavimo galios tipas: Dviejų kortelių GPU pagrindinis tipas - 2*16GB+ | 16+TFlops SP | CPU - 16 branduolių | RAM - 64GB

Įdiekite "Conda"

Sukurkite python aplinką naudodami conda, įklijuokite scenarijų tiesiogiai:

Prisijungimas matomas.

"DeepSeek-R1" diegimas naudojant vLLM

Sukurkite python aplinką naudodami conda naudodami šią komandą:

Prisijungimas matomas.

Įdiekite vllm ir modelscope naudodami šias komandas:

Prisijungimas matomas.

Atsisiųskite "DeepSeek-R1" modelį naudodami "modelscope" naudodami šią komandą:

Prisijungimas matomas.

Nuoroda:Hipersaito prisijungimas matomas.

Paleiskite deepseek modelį naudodami vllm naudodami šią komandą:

Prisijungimas matomas.

Jei susiduriate su "Bfloat16" palaikomas tik GPU, kurių skaičiavimo galimybė yra ne mažesnė kaip 8.0. Jūsų Tesla T4 GPU turi 7.5 skaičiavimo galimybę. Vietoj to galite naudoti float16, aiškiai nustatydami "dtype" vėliavėlę CLI, pvz.: --dtype=half. Įspėjimas, tiesiog pridėkite parametrus pagal įspėjimą.

Pastaba:

--tensor-lygiagretaus dydžio ir GPU skaičiavimo nustatymai
--gpu-memory-utilization kontroliuoja naudojamos atminties procentą
--served-model-name API naudojamas modelio pavadinimas
--disable-log-requests išjungia registravimo užklausas

vLLM Linux GPU diegimo dokumentacija:Hipersaito prisijungimas matomas.
Variklio parametrai:Hipersaito prisijungimas matomas.

Patikrinkite GPU būseną, kaip parodyta toliau:

Naudokite paštininko testus

Atidaryta naršyklė:http://ip:8000/
Sąsajos dokumentacija:http://ip:8000/docs

Paštininko skambutis, kaip parodyta šiame paveikslėlyje:

Prisijungimas matomas.

Lyginamoji analizė

Atsisiųskite bandomąjį kodą naudodami šią komandą:

Prisijungimas matomas.

Komanda vykdoma taip:

Prisijungimas matomas.

Rezultatas: Pralaidumas: 2,45 užklausos/s, 1569,60 žetonų/s, 1255,68 išvesties žetonų/s

(Pabaiga)

Mažai purvo · Paskelbta 2025-03-12 15:14:42

vllm arba sglang naudojimas sistemoje "Windows" šiuo metu nepalaikomas, o jei norite jį paleisti sistemoje "Windows", galite naudoti WSL ("Windows" posistemis, skirtas "Linux").

Mažai purvo · Paskelbta 2025-08-18 11:46:22

Kitos išvadų sistemos: TensorRT, vLLM, LMDeploy ir MLC-LLM, sglang

[AI] (9) Naudokite "vLLM" įmonės lygio "DeepSeek-R1" modelių diegimą

Susijusios žinutės

Peržiūrėtos sekcijos