Šis straipsnis yra veidrodinis mašininio vertimo straipsnis, spauskite čia norėdami pereiti prie originalaus straipsnio.

Rodinys: 1547|Atsakyti: 2

[AI] (9) Naudokite "vLLM" įmonės lygio "DeepSeek-R1" modelių diegimą

[Kopijuoti nuorodą]
Publikuota: 2025-3-6 11:23:03 | | | |
Reikalavimai: Anksčiau esu įdiegęs deepseek-r1:32b modelį su Ollama, kuris yra labai patogus ir greitas, tinkamas asmeniniam greitam diegimui. Jei tai yra įmonės gamybos aplinka, kaip ji turėtų būti diegiama? Paprastai diegimui naudojami vllm ir sglang, o šiame straipsnyje naudojamas vLLM DeepSeek-R1 modeliui diegti.

Ollama prieš vLLM

Skirtumai yra šie:

Kontrasto matmenysOllamavLLM
Šerdies padėtisLengvi lokalizavimo įrankiai individualiems kūrėjams ir nedidelio masto eksperimentamsGamybos lygio išvadų sistema, sutelkianti dėmesį į įmonės lygio scenarijus su dideliu sutapimu ir maža delsa
Techninės įrangos reikalavimaiPalaiko procesorių ir GPU, mažą atminties plotą (pagal numatytuosius nustatymus naudoja kvantavimo modelį)Turi pasikliauti NVIDIA GPU, kurie naudoja daug atminties
Modelio palaikymasIntegruota iš anksto apmokyta modelių biblioteka (palaiko 1700+ modelių), automatinis kiekybinių versijų atsisiuntimas (daugiausia int4)Rankinis originalaus modelio failo atsisiuntimas (pvz., "HuggingFace" formatas) palaiko platesnį modelių asortimentą
Diegimo sunkumaiDiegimas vienu mygtuku ir naudojimas iš anksto, nereikalaujant programavimo pagrindoReikalinga Python aplinka ir CUDA tvarkyklė, taip pat reikalinga techninė patirtis
Eksploatacinės charakteristikosVienos išvados greitis yra didelis, tačiau lygiagrečių apdorojimo galimybės yra silpnosDidelis pralaidumas, dinaminio paketinio apdorojimo palaikymas ir tūkstančiai užklausų vienu metu
išteklių valdymasLanksčiai reguliuokite išteklių naudojimą ir automatiškai atlaisvinkite vaizdo atmintį, kai neveikiaVaizdo atminties užimtumas yra fiksuotas, todėl reikia rezervuoti išteklius, kad būtų galima susidoroti su didžiausiomis apkrovomis


Trumpas įvadas į vLLM

vLLM yra greita ir lengvai naudojama LLM išvadų ir paslaugų biblioteka.

vLLM su naujais algoritmais iš naujo apibrėžia naujausią LLM paslaugų technologijų lygį: . Palyginti su "HuggingFace Transformers", jis siūlo iki 24 kartų didesnį pralaidumą be jokių modelio architektūros pakeitimų. Perpus sumažinus maišos dažnį ir dešimt kartų padidinus pralaidumą, tyrimas palygino vLLM pralaidumą su populiariausia LLM biblioteka "HuggingFace Transformers" (HF) ir ankstesne "HuggingFace Text Generation Inference" (TGI) su SOTA pralaidumu. Be to, tyrimas suskirstė eksperimentinę sąranką į du tipus: LLaMA-7B su NVIDIA A10G GPU kaip aparatine įranga; Kitas yra LLaMA-13B, su NVIDIA A100 GPU (40 GB) aparatinėje įrangoje. Jie atrinko įvesties / išvesties ilgius iš "ShareGPT" duomenų rinkinio. Rezultatai parodė, kad vLLM pralaidumas buvo 24 kartus didesnis nei HF ir 3,5 karto didesnis nei TGI.

vLLM dokumentacija:Hipersaito prisijungimas matomas.
Šaltinio kodo adresas:Hipersaito prisijungimas matomas.
Našumo testavimas:Hipersaito prisijungimas matomas.



Jums nereikia suprasti paveikslėlio, karvė baigta!

Pasirengimas aplinkai

Įsigijau "Tencent Cloud" didelio našumo programų paslaugas ir sukonfigūravau jas taip:

Ubuntu 20.04
Aplinkos konfigūracija: Ubuntu 20.04, tvarkyklė 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Skaičiavimo galios tipas: Dviejų kortelių GPU pagrindinis tipas - 2*16GB+ | 16+TFlops SP | CPU - 16 branduolių | RAM - 64GB

Įdiekite "Conda"

Sukurkite python aplinką naudodami conda, įklijuokite scenarijų tiesiogiai:


"DeepSeek-R1" diegimas naudojant vLLM

Sukurkite python aplinką naudodami conda naudodami šią komandą:


Įdiekite vllm ir modelscope naudodami šias komandas:


Atsisiųskite "DeepSeek-R1" modelį naudodami "modelscope" naudodami šią komandą:


Nuoroda:Hipersaito prisijungimas matomas.

Paleiskite deepseek modelį naudodami vllm naudodami šią komandą:




Jei susiduriate su "Bfloat16" palaikomas tik GPU, kurių skaičiavimo galimybė yra ne mažesnė kaip 8.0. Jūsų Tesla T4 GPU turi 7.5 skaičiavimo galimybę. Vietoj to galite naudoti float16, aiškiai nustatydami "dtype" vėliavėlę CLI, pvz.: --dtype=half. Įspėjimas, tiesiog pridėkite parametrus pagal įspėjimą.

Pastaba:

  • --tensor-lygiagretaus dydžio ir GPU skaičiavimo nustatymai
  • --gpu-memory-utilization kontroliuoja naudojamos atminties procentą
  • --served-model-name API naudojamas modelio pavadinimas
  • --disable-log-requests išjungia registravimo užklausas


vLLM Linux GPU diegimo dokumentacija:Hipersaito prisijungimas matomas.
Variklio parametrai:Hipersaito prisijungimas matomas.

Patikrinkite GPU būseną, kaip parodyta toliau:



Naudokite paštininko testus

Atidaryta naršyklė:http://ip:8000/
Sąsajos dokumentacija:http://ip:8000/docs



Paštininko skambutis, kaip parodyta šiame paveikslėlyje:




Lyginamoji analizė

Atsisiųskite bandomąjį kodą naudodami šią komandą:


Komanda vykdoma taip:


Rezultatas: Pralaidumas: 2,45 užklausos/s, 1569,60 žetonų/s, 1255,68 išvesties žetonų/s



(Pabaiga)




Ankstesnis:Namų tinklas prasideda nuo GL-MT3000 maršrutizatoriaus
Kitą:Žiniatinklio valdytojo savižiniasklaidos paskyra
 Savininkas| Publikuota: 2025-3-12 15:14:42 |
vllm arba sglang naudojimas sistemoje "Windows" šiuo metu nepalaikomas, o jei norite jį paleisti sistemoje "Windows", galite naudoti WSL ("Windows" posistemis, skirtas "Linux").
 Savininkas| Publikuota: 2025-8-18 11:46:22 |
Kitos išvadų sistemos: TensorRT, vLLM, LMDeploy ir MLC-LLM, sglang
Atsakomybės apribojimas:
Visa programinė įranga, programavimo medžiaga ar straipsniai, kuriuos skelbia Code Farmer Network, yra skirti tik mokymosi ir mokslinių tyrimų tikslams; Aukščiau nurodytas turinys negali būti naudojamas komerciniais ar neteisėtais tikslais, priešingu atveju vartotojai prisiima visas pasekmes. Šioje svetainėje pateikiama informacija gaunama iš interneto, o ginčai dėl autorių teisių neturi nieko bendra su šia svetaine. Turite visiškai ištrinti aukščiau pateiktą turinį iš savo kompiuterio per 24 valandas nuo atsisiuntimo. Jei jums patinka programa, palaikykite autentišką programinę įrangą, įsigykite registraciją ir gaukite geresnes autentiškas paslaugas. Jei yra kokių nors pažeidimų, susisiekite su mumis el. paštu.

Mail To:help@itsvse.com