See artikkel on masintõlke peegelartikkel, palun klõpsake siia, et hüpata algse artikli juurde.

Vaade: 1547|Vastuse: 2

[AI] (9) Kasuta vLLM-i ettevõtte tasandi DeepSeek-R1 mudelite juurutust

[Kopeeri link]
Postitatud 2025-3-6 11:23:03 | | | |
Nõuded: Olen varem kasutanud deepseek-r1:32b mudelit Ollamaga, mis on väga mugav ja kiire, sobiv isiklikuks kiireks kasutuselevõtuks. Kui tegemist on ettevõtte tootmiskeskkonnaga, kuidas seda tuleks juurutada? Üldiselt kasutatakse juurutamiseks vllm ja sglang ning selles artiklis kasutatakse vLLM-i DeepSeek-R1 mudeli juurutamiseks.

Ollama vs. vLLM

Erinevused on järgmised:

KontrastmõõtmedOllamavLLM
Tuuma positsioneerimineKerged lokaliseerimistööriistad üksikutele arendajatele ja väiksemahulistele katsetusteleTootmistaseme järeldamisraamistik, mis keskendub ettevõtte tasandi stsenaariumitele, kus on kõrge samaaegsus ja madal latentsus
RiistvaranõudedToetab CPU-d ja GPU-d, väike mälukasutus (kasutab vaikimisi kvantimismudelit)Tuleb toetuda NVIDIA GPU-dele, millel on suur mälukasutus
Mudeli tugiSisseehitatud eeltreenitud mudeliteek (toetab 1700+ mudelit), kvantitatiivsete versioonide automaatne allalaadimine (peamiselt int4)Originaalmudelifaili käsitsi allalaadimine (nt HuggingFace formaat) toetab laiemat mudelite valikut
Kasutuselevõtu raskusÜhe nupu paigaldus ja karbist välja kasutamine ilma programmeerimisbaasi nõudmataVajalik on Python keskkond ja CUDA draiver ning vajalik on tehniline kogemus
JõudlusomadusedÜhe järelduse kiirus on kiire, kuid samaaegsuse töötlemise võimekus on nõrkKõrge läbilaskevõime, dünaamilise partiitöötluse tugi ja tuhanded samaaegsed päringud
Ressursside haldamineReguleeri ressursikasutust paindlikult ja vabasta videomälu automaatselt, kui see on tühikäigulVideomälu hõivatus on fikseeritud ning ressursid tuleb reserveerida, et tulla toime tippkoormustega


Lühike sissejuhatus vLLM-idesse.

vLLM on kiire ja lihtne LLM-i järelduste ja teenuste raamatukogu.

vLLM uute algoritmidega määratleb LLM-teenuste uusima tehnoloogilise taseme: . Võrreldes HuggingFace Transformersiga pakub see kuni 24 korda suuremat läbilaskevõimet ilma mudeli arhitektuuri muudatusteta. Räsikiiruse poole võrra vähendades ja läbilaskevõimet kümnekordselt suurendades võrdles uuring vLLM-i läbilaskevõimet populaarseima LLM-i teegiga, HuggingFace Transformersiga (HF), ning varasema HuggingFace Text Generation Inference'iga (TGI) SOTA läbilaskevõimega. Lisaks jagas uuring eksperimentaalse seadistuse kaheks tüübiks: LLaMA-7B NVIDIA A10G graafikakaardiga riistvarana; Teine on LLaMA-13B, millel on NVIDIA A100 GPU (40GB) riistvaral. Nad võtsid ShareGPT andmestikust sisendi/väljundi pikkusi. Tulemused näitasid, et vLLM-i läbilaskevõime oli 24 korda suurem kui HF ja 3,5 korda suurem kui TGI-l.

vLLM dokumentatsioon:Hüperlingi sisselogimine on nähtav.
Lähtekoodi aadress:Hüperlingi sisselogimine on nähtav.
Jõudlustestid:Hüperlingi sisselogimine on nähtav.



Sa ei pea pilti mõistma, lehm on läbi!

Keskkonna ettevalmistus

Ostsin Tencent Cloudi kõrgjõudlusega rakendusteenused ja seadistasin need järgmiselt:

Ubuntu 20.04
Keskkonna seadistus: Ubuntu 20.04, draiver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Arvutusvõimsuse tüüp: Kahe kaardiga GPU põhitüüp - 2*16GB+ | 16+TFlops SP | CPU - 16 tuuma | RAM - 64GB

Paigalda Conda

Loo python keskkond condaga, kleebi skript otse:


Juuruta DeepSeek-R1 vLLM-i abil

Loo python keskkond koos järgmise käsuga conda'ga:


Paigalda vllm ja modelscope järgmiste käskudega:


Laadi alla DeepSeek-R1 mudel modelscope'i abil järgmise käsuga:


Viide:Hüperlingi sisselogimine on nähtav.

Alusta deepseek mudelit vllm-iga järgmise käsuga:




Kui kohtad "Bfloat16 on toetatud ainult GPU-del, mille arvutusvõimsus on vähemalt 8.0. Sinu Tesla T4 GPU-l on arvutusvõimsus 7.5. Float16 saab selle asemel kasutada, seades CLI-s selgelt 'dtype' lipu, näiteks: --dtype=half." Hoiatus, lisa lihtsalt parameetrid vastavalt hoiatusele.

Märkus:

  • --tensor-paralleelsuuruse ja GPU arvu seaded
  • --GPU-mälukasutus kontrollib kasutatava mälu protsenti
  • --served-model-name API-s kasutatav mudelinimi
  • --disable-log-requests keelab logimispäringud


vLLM Linux GPU paigaldusdokumentatsioon:Hüperlingi sisselogimine on nähtav.
Mootori parameetrid:Hüperlingi sisselogimine on nähtav.

Vaata GPU staatust, nagu allpool näidatud:



Kasuta Postmani teste

Brauser avatud:http://ip:8000/
Liidese dokumentatsioon:http://ip:8000/docs



Postiljoni kõne, nagu näidatud järgmisel pildil:




Võrdlusuuringute

Laadige testkood alla järgmise käsuga:


Käsk täidetakse järgmiselt:


Tulemus: läbilaskevõime: 2,45 taotlust/s, 1569,60 kokku tokenit/s, 1255,68 väljundtokenit/s



(Lõpp)




Eelmine:Koduvõrk algab GL-MT3000 ruuteriga
Järgmine:Veebimeistri enesemeedia konto
 Üürileandja| Postitatud 2025-3-12 15:14:42 |
Vllm või sglang Windowsis praegu ei ole toetatud, ja kui tahad seda Windowsis käivitada, võid kasutada WSL-i (Windows Subsystem for Linux).
 Üürileandja| Postitatud 2025-8-18 11:46:22 |
Teised järeldusraamistikud: TensorRT, vLLM, LMDeploy ja MLC-LLM, sglang
Disclaimer:
Kõik Code Farmer Networki poolt avaldatud tarkvara, programmeerimismaterjalid või artiklid on mõeldud ainult õppimiseks ja uurimistööks; Ülaltoodud sisu ei tohi kasutada ärilistel ega ebaseaduslikel eesmärkidel, vastasel juhul kannavad kasutajad kõik tagajärjed. Selle saidi info pärineb internetist ning autoriõiguste vaidlused ei ole selle saidiga seotud. Ülaltoodud sisu tuleb oma arvutist täielikult kustutada 24 tunni jooksul pärast allalaadimist. Kui sulle programm meeldib, palun toeta originaaltarkvara, osta registreerimist ja saa paremaid ehtsaid teenuseid. Kui esineb rikkumist, palun võtke meiega ühendust e-posti teel.

Mail To:help@itsvse.com