Nõuded: Olen varem kasutanud deepseek-r1:32b mudelit Ollamaga, mis on väga mugav ja kiire, sobiv isiklikuks kiireks kasutuselevõtuks. Kui tegemist on ettevõtte tootmiskeskkonnaga, kuidas seda tuleks juurutada? Üldiselt kasutatakse juurutamiseks vllm ja sglang ning selles artiklis kasutatakse vLLM-i DeepSeek-R1 mudeli juurutamiseks.
Ollama vs. vLLM
Erinevused on järgmised:
| Kontrastmõõtmed | Ollama | vLLM | | Tuuma positsioneerimine | Kerged lokaliseerimistööriistad üksikutele arendajatele ja väiksemahulistele katsetustele | Tootmistaseme järeldamisraamistik, mis keskendub ettevõtte tasandi stsenaariumitele, kus on kõrge samaaegsus ja madal latentsus | | Riistvaranõuded | Toetab CPU-d ja GPU-d, väike mälukasutus (kasutab vaikimisi kvantimismudelit) | Tuleb toetuda NVIDIA GPU-dele, millel on suur mälukasutus | | Mudeli tugi | Sisseehitatud eeltreenitud mudeliteek (toetab 1700+ mudelit), kvantitatiivsete versioonide automaatne allalaadimine (peamiselt int4) | Originaalmudelifaili käsitsi allalaadimine (nt HuggingFace formaat) toetab laiemat mudelite valikut | | Kasutuselevõtu raskus | Ühe nupu paigaldus ja karbist välja kasutamine ilma programmeerimisbaasi nõudmata | Vajalik on Python keskkond ja CUDA draiver ning vajalik on tehniline kogemus | | Jõudlusomadused | Ühe järelduse kiirus on kiire, kuid samaaegsuse töötlemise võimekus on nõrk | Kõrge läbilaskevõime, dünaamilise partiitöötluse tugi ja tuhanded samaaegsed päringud | | Ressursside haldamine | Reguleeri ressursikasutust paindlikult ja vabasta videomälu automaatselt, kui see on tühikäigul | Videomälu hõivatus on fikseeritud ning ressursid tuleb reserveerida, et tulla toime tippkoormustega |
Lühike sissejuhatus vLLM-idesse.
vLLM on kiire ja lihtne LLM-i järelduste ja teenuste raamatukogu.
vLLM uute algoritmidega määratleb LLM-teenuste uusima tehnoloogilise taseme: . Võrreldes HuggingFace Transformersiga pakub see kuni 24 korda suuremat läbilaskevõimet ilma mudeli arhitektuuri muudatusteta. Räsikiiruse poole võrra vähendades ja läbilaskevõimet kümnekordselt suurendades võrdles uuring vLLM-i läbilaskevõimet populaarseima LLM-i teegiga, HuggingFace Transformersiga (HF), ning varasema HuggingFace Text Generation Inference'iga (TGI) SOTA läbilaskevõimega. Lisaks jagas uuring eksperimentaalse seadistuse kaheks tüübiks: LLaMA-7B NVIDIA A10G graafikakaardiga riistvarana; Teine on LLaMA-13B, millel on NVIDIA A100 GPU (40GB) riistvaral. Nad võtsid ShareGPT andmestikust sisendi/väljundi pikkusi. Tulemused näitasid, et vLLM-i läbilaskevõime oli 24 korda suurem kui HF ja 3,5 korda suurem kui TGI-l.
vLLM dokumentatsioon:Hüperlingi sisselogimine on nähtav. Lähtekoodi aadress:Hüperlingi sisselogimine on nähtav. Jõudlustestid:Hüperlingi sisselogimine on nähtav.
Sa ei pea pilti mõistma, lehm on läbi!
Keskkonna ettevalmistus
Ostsin Tencent Cloudi kõrgjõudlusega rakendusteenused ja seadistasin need järgmiselt:
Ubuntu 20.04 Keskkonna seadistus: Ubuntu 20.04, draiver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Arvutusvõimsuse tüüp: Kahe kaardiga GPU põhitüüp - 2*16GB+ | 16+TFlops SP | CPU - 16 tuuma | RAM - 64GB
Paigalda Conda
Loo python keskkond condaga, kleebi skript otse:
Juuruta DeepSeek-R1 vLLM-i abil
Loo python keskkond koos järgmise käsuga conda'ga:
Paigalda vllm ja modelscope järgmiste käskudega:
Laadi alla DeepSeek-R1 mudel modelscope'i abil järgmise käsuga:
Viide:Hüperlingi sisselogimine on nähtav.
Alusta deepseek mudelit vllm-iga järgmise käsuga:
Kui kohtad "Bfloat16 on toetatud ainult GPU-del, mille arvutusvõimsus on vähemalt 8.0. Sinu Tesla T4 GPU-l on arvutusvõimsus 7.5. Float16 saab selle asemel kasutada, seades CLI-s selgelt 'dtype' lipu, näiteks: --dtype=half." Hoiatus, lisa lihtsalt parameetrid vastavalt hoiatusele.
Märkus:
- --tensor-paralleelsuuruse ja GPU arvu seaded
- --GPU-mälukasutus kontrollib kasutatava mälu protsenti
- --served-model-name API-s kasutatav mudelinimi
- --disable-log-requests keelab logimispäringud
vLLM Linux GPU paigaldusdokumentatsioon:Hüperlingi sisselogimine on nähtav. Mootori parameetrid:Hüperlingi sisselogimine on nähtav.
Vaata GPU staatust, nagu allpool näidatud:
Kasuta Postmani teste
Brauser avatud:http://ip:8000/ Liidese dokumentatsioon:http://ip:8000/docs
Postiljoni kõne, nagu näidatud järgmisel pildil:
Võrdlusuuringute
Laadige testkood alla järgmise käsuga:
Käsk täidetakse järgmiselt:
Tulemus: läbilaskevõime: 2,45 taotlust/s, 1569,60 kokku tokenit/s, 1255,68 väljundtokenit/s
(Lõpp) |