Reikalavimai: Anksčiau esu įdiegęs deepseek-r1:32b modelį su Ollama, kuris yra labai patogus ir greitas, tinkamas asmeniniam greitam diegimui. Jei tai yra įmonės gamybos aplinka, kaip ji turėtų būti diegiama? Paprastai diegimui naudojami vllm ir sglang, o šiame straipsnyje naudojamas vLLM DeepSeek-R1 modeliui diegti.
Ollama prieš vLLM
Skirtumai yra šie:
| Kontrasto matmenys | Ollama | vLLM | | Šerdies padėtis | Lengvi lokalizavimo įrankiai individualiems kūrėjams ir nedidelio masto eksperimentams | Gamybos lygio išvadų sistema, sutelkianti dėmesį į įmonės lygio scenarijus su dideliu sutapimu ir maža delsa | | Techninės įrangos reikalavimai | Palaiko procesorių ir GPU, mažą atminties plotą (pagal numatytuosius nustatymus naudoja kvantavimo modelį) | Turi pasikliauti NVIDIA GPU, kurie naudoja daug atminties | | Modelio palaikymas | Integruota iš anksto apmokyta modelių biblioteka (palaiko 1700+ modelių), automatinis kiekybinių versijų atsisiuntimas (daugiausia int4) | Rankinis originalaus modelio failo atsisiuntimas (pvz., "HuggingFace" formatas) palaiko platesnį modelių asortimentą | | Diegimo sunkumai | Diegimas vienu mygtuku ir naudojimas iš anksto, nereikalaujant programavimo pagrindo | Reikalinga Python aplinka ir CUDA tvarkyklė, taip pat reikalinga techninė patirtis | | Eksploatacinės charakteristikos | Vienos išvados greitis yra didelis, tačiau lygiagrečių apdorojimo galimybės yra silpnos | Didelis pralaidumas, dinaminio paketinio apdorojimo palaikymas ir tūkstančiai užklausų vienu metu | | išteklių valdymas | Lanksčiai reguliuokite išteklių naudojimą ir automatiškai atlaisvinkite vaizdo atmintį, kai neveikia | Vaizdo atminties užimtumas yra fiksuotas, todėl reikia rezervuoti išteklius, kad būtų galima susidoroti su didžiausiomis apkrovomis |
Trumpas įvadas į vLLM
vLLM yra greita ir lengvai naudojama LLM išvadų ir paslaugų biblioteka.
vLLM su naujais algoritmais iš naujo apibrėžia naujausią LLM paslaugų technologijų lygį: . Palyginti su "HuggingFace Transformers", jis siūlo iki 24 kartų didesnį pralaidumą be jokių modelio architektūros pakeitimų. Perpus sumažinus maišos dažnį ir dešimt kartų padidinus pralaidumą, tyrimas palygino vLLM pralaidumą su populiariausia LLM biblioteka "HuggingFace Transformers" (HF) ir ankstesne "HuggingFace Text Generation Inference" (TGI) su SOTA pralaidumu. Be to, tyrimas suskirstė eksperimentinę sąranką į du tipus: LLaMA-7B su NVIDIA A10G GPU kaip aparatine įranga; Kitas yra LLaMA-13B, su NVIDIA A100 GPU (40 GB) aparatinėje įrangoje. Jie atrinko įvesties / išvesties ilgius iš "ShareGPT" duomenų rinkinio. Rezultatai parodė, kad vLLM pralaidumas buvo 24 kartus didesnis nei HF ir 3,5 karto didesnis nei TGI.
vLLM dokumentacija:Hipersaito prisijungimas matomas. Šaltinio kodo adresas:Hipersaito prisijungimas matomas. Našumo testavimas:Hipersaito prisijungimas matomas.
Jums nereikia suprasti paveikslėlio, karvė baigta!
Pasirengimas aplinkai
Įsigijau "Tencent Cloud" didelio našumo programų paslaugas ir sukonfigūravau jas taip:
Ubuntu 20.04 Aplinkos konfigūracija: Ubuntu 20.04, tvarkyklė 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Skaičiavimo galios tipas: Dviejų kortelių GPU pagrindinis tipas - 2*16GB+ | 16+TFlops SP | CPU - 16 branduolių | RAM - 64GB
Įdiekite "Conda"
Sukurkite python aplinką naudodami conda, įklijuokite scenarijų tiesiogiai:
"DeepSeek-R1" diegimas naudojant vLLM
Sukurkite python aplinką naudodami conda naudodami šią komandą:
Įdiekite vllm ir modelscope naudodami šias komandas:
Atsisiųskite "DeepSeek-R1" modelį naudodami "modelscope" naudodami šią komandą:
Nuoroda:Hipersaito prisijungimas matomas.
Paleiskite deepseek modelį naudodami vllm naudodami šią komandą:
Jei susiduriate su "Bfloat16" palaikomas tik GPU, kurių skaičiavimo galimybė yra ne mažesnė kaip 8.0. Jūsų Tesla T4 GPU turi 7.5 skaičiavimo galimybę. Vietoj to galite naudoti float16, aiškiai nustatydami "dtype" vėliavėlę CLI, pvz.: --dtype=half. Įspėjimas, tiesiog pridėkite parametrus pagal įspėjimą.
Pastaba:
- --tensor-lygiagretaus dydžio ir GPU skaičiavimo nustatymai
- --gpu-memory-utilization kontroliuoja naudojamos atminties procentą
- --served-model-name API naudojamas modelio pavadinimas
- --disable-log-requests išjungia registravimo užklausas
vLLM Linux GPU diegimo dokumentacija:Hipersaito prisijungimas matomas. Variklio parametrai:Hipersaito prisijungimas matomas.
Patikrinkite GPU būseną, kaip parodyta toliau:
Naudokite paštininko testus
Atidaryta naršyklė:http://ip:8000/ Sąsajos dokumentacija:http://ip:8000/docs
Paštininko skambutis, kaip parodyta šiame paveikslėlyje:
Lyginamoji analizė
Atsisiųskite bandomąjį kodą naudodami šią komandą:
Komanda vykdoma taip:
Rezultatas: Pralaidumas: 2,45 užklausos/s, 1569,60 žetonų/s, 1255,68 išvesties žetonų/s
(Pabaiga) |