[AI] (9) Käytä vLLM:ää yritystason DeepSeek-R1-mallien käyttöönottoa

Pikku roisto · Julkaistu 6.3.2025 11.23.03

Vaatimukset: Olen aiemmin ottanut käyttöön deepseek-r1:32b-mallin Ollamalla, joka on erittäin kätevä ja nopea, sopiva henkilökohtaiseen nopeaan käyttöönottoon. Jos kyseessä on yritystuotantoympäristö, miten se tulisi ottaa käyttöön? Yleisesti ottaen käyttöönotossa käytetään vllm:ää ja sglangia, ja tässä artikkelissa käytetään vLLM:ää DeepSeek-R1-mallin käyttöönottoon.

Ollama vs. vLLM

Erot ovat seuraavat:

Kontrastimitat	Ollama	vLLM
Ytimen sijoittaminen	Kevyet lokalisointityökalut yksittäisille kehittäjille ja pienimuotoisille kokeiluille	Tuotantotason päättelykehys, joka keskittyy yritystason skenaarioihin, joissa on korkea samanaikaisuus ja matala viive
Laitteistovaatimukset	Tukee CPU:ta ja GPU:ta, pieni muistin jalanjälki (käyttää oletuksena kvantisointimallia)	Täytyy luottaa NVIDIA-näytönohjaimiin, joilla on korkea muistinkulutus
Mallituki	Sisäänrakennettu esikoulutettu mallikirjasto (tukee 1700+ mallia), automaattinen määrällisten versioiden lataus (pääasiassa int4)	Alkuperäisen mallitiedoston manuaalinen lataus (esim. HuggingFace-muoto) tukee laajempaa mallivalikoimaa
Käyttöönoton vaikeus	Yhden painikkeen asennus ja valmiiksi tarkoitettu käyttö ilman ohjelmointipohjaa	Python-ympäristö ja CUDA-ajuri ovat välttämättömiä, ja tekninen kokemus vaaditaan
Suorituskykyominaisuudet	Yksittäisen päättelyn nopeus on nopea, mutta samanaikaisuuden käsittelykyky on heikko	Korkea läpäisy, tuki dynaamiselle eräajokäsittelylle ja tuhansia samanaikaisia pyyntöjä
Resurssien hallinta	Säädä resurssien käyttöä joustavasti ja vapauta automaattisesti videomuisti, kun se on tyhjäkäynnillä	Videomuistin käyttö on kiinteä, ja resursseja täytyy varata huippukuormien hallintaan

Lyhyt johdanto vLLM-peleihin

vLLM on nopea ja helppokäyttöinen LLM-päättely- ja palvelukirjasto.

vLLM uusilla algoritmeilla määrittelee uudelleen LLM-palveluiden uusimman teknologiatason: . Verrattuna HuggingFace Transformersiin, se tarjoaa jopa 24 kertaa suuremman läpimenon ilman malliarkkitehtuurin muutoksia. Hajautusnopeuden puolittamista ja läpimenon kymmenkertaistamista tutkimuksessa verrattiin vLLM:n läpäisykykyä suosituimpaan LLM-kirjastoon, HuggingFace Transformersiin (HF), ja aiempaan HuggingFace Text Generation Inferenceyn (TGI) SOTA-läpimenokykyyn. Lisäksi tutkimus jakoi kokeellisen kokoonpanon kahteen tyyppiin: LLaMA-7B, jossa laitteistona on NVIDIA A10G GPU; Toinen on LLaMA-13B, jossa on NVIDIA A100 GPU (40GB) laitteistolla. He ottavat näytteitä syöte- ja tulostuspituudet ShareGPT-aineistosta. Tulokset osoittivat, että vLLM:n läpäisykyky oli 24 kertaa suurempi kuin HF:n ja 3,5 kertaa suurempi kuin TGI:n.

vLLM-dokumentaatio:Hyperlinkin kirjautuminen on näkyvissä.
Lähdekoodin osoite:Hyperlinkin kirjautuminen on näkyvissä.
Suorituskyvyn testaus:Hyperlinkin kirjautuminen on näkyvissä.

Sinun ei tarvitse ymmärtää kuvaa, lehmä on valmis!

Ympäristön valmistelu

Ostin Tencent Cloudin suorituskykyiset sovelluspalvelut ja konfiguroin ne seuraavasti:

Ubuntu 20.04
Ympäristön asetukset: Ubuntu 20.04, ajuri 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Laskentatehotyyppi: Kaksikorttiinen GPU:n perustyyppi - 2*16GB+ | 16+TFlops SP | CPU - 16 ydintä | RAM-muisti - 64GB

Asenna Conda

Luo python-ympäristö condalla, liitä skripti suoraan:

Kirjautuminen näkyy.

Käynnistä DeepSeek-R1 vLLM:n avulla

Luo python-ympäristö condalla seuraavalla komennolla:

Kirjautuminen näkyy.

Asenna vllm ja modelscope seuraavilla komennoilla:

Kirjautuminen näkyy.

Lataa DeepSeek-R1-malli modelscopella seuraavalla komennolla:

Kirjautuminen näkyy.

Viittaus:Hyperlinkin kirjautuminen on näkyvissä.

Aloita deepseeke-malli vllm:llä seuraavalla komennolla:

Kirjautuminen näkyy.

Jos kohtaat "Bfloat16 on tuettu vain GPU:illa, joiden laskentateho on vähintään 8.0. Tesla T4 -näytönohjaimesi laskentateho on 7.5. Voit käyttää float16:ta sen sijaan asettamalla 'dtype'-lipun nimenomaan CLI:ssä, esimerkiksi: --dtype=half." Varoitus, lisää vain parametrit varoituksen mukaan.

Huomautus:

--tensor-rinnakkaiskoko ja näytönohjainten määrän asetukset
--GPU-muistin käyttö säätelee käytetyn muistin osuutta
--served-model-name API:ssa käytetty mallinimi
--disable-log-requests poistaa lokipyynnöt käytöstä

vLLM Linux GPU:n asennusdokumentaatio:Hyperlinkin kirjautuminen on näkyvissä.
Moottorin parametrit:Hyperlinkin kirjautuminen on näkyvissä.

Katso näytönohjaimen tila alla:

Käytä Postman-testejä

Selain auki:http://ip:8000/
Käyttöliittymädokumentaatio:http://ip:8000/docs

Postimies call, kuten seuraavassa kuvassa näkyy:

Kirjautuminen näkyy.

Esikuva-analyysi

Lataa testikoodi seuraavalla komennolla:

Kirjautuminen näkyy.

Käsky suoritetaan seuraavasti:

Kirjautuminen näkyy.

Tulos: Läpimenokyky: 2,45 pyyntöä/s, 1569,60 kokonaistokeneita/s, 1255,68 output tokeneita/s

(Loppu)

Pikku roisto · Julkaistu 12.3.2025 15.14.42

Vllm:n tai sglangin käyttöä Windowsissa ei tällä hetkellä tueta, ja jos haluat ajaa sitä Windowsilla, voit käyttää WSL:ää (Windows Subsystem for Linux).

Pikku roisto · Julkaistu 18.8.2025 11.46.22

Muut päättelykehykset: TensorRT, vLLM, LMDeploy ja MLC-LLM, sglang

[AI] (9) Käytä vLLM:ää yritystason DeepSeek-R1-mallien käyttöönottoa

Aiheeseen liittyvät julkaisut

Katsotut osuudet