Tämä artikkeli on konekäännöksen peiliartikkeli, klikkaa tästä siirtyäksesi alkuperäiseen artikkeliin.

Näkymä: 1547|Vastaus: 2

[AI] (9) Käytä vLLM:ää yritystason DeepSeek-R1-mallien käyttöönottoa

[Kopioi linkki]
Julkaistu 2025-3-6 klo 11:23:03 | | | |
Vaatimukset: Olen aiemmin ottanut käyttöön deepseek-r1:32b-mallin Ollamalla, joka on erittäin kätevä ja nopea, sopiva henkilökohtaiseen nopeaan käyttöönottoon. Jos kyseessä on yritystuotantoympäristö, miten se tulisi ottaa käyttöön? Yleisesti ottaen käyttöönotossa käytetään vllm:ää ja sglangia, ja tässä artikkelissa käytetään vLLM:ää DeepSeek-R1-mallin käyttöönottoon.

Ollama vs. vLLM

Erot ovat seuraavat:

KontrastimitatOllamavLLM
Ytimen sijoittaminenKevyet lokalisointityökalut yksittäisille kehittäjille ja pienimuotoisille kokeiluilleTuotantotason päättelykehys, joka keskittyy yritystason skenaarioihin, joissa on korkea samanaikaisuus ja matala viive
LaitteistovaatimuksetTukee CPU:ta ja GPU:ta, pieni muistin jalanjälki (käyttää oletuksena kvantisointimallia)Täytyy luottaa NVIDIA-näytönohjaimiin, joilla on korkea muistinkulutus
MallitukiSisäänrakennettu esikoulutettu mallikirjasto (tukee 1700+ mallia), automaattinen määrällisten versioiden lataus (pääasiassa int4)Alkuperäisen mallitiedoston manuaalinen lataus (esim. HuggingFace-muoto) tukee laajempaa mallivalikoimaa
Käyttöönoton vaikeusYhden painikkeen asennus ja valmiiksi tarkoitettu käyttö ilman ohjelmointipohjaaPython-ympäristö ja CUDA-ajuri ovat välttämättömiä, ja tekninen kokemus vaaditaan
SuorituskykyominaisuudetYksittäisen päättelyn nopeus on nopea, mutta samanaikaisuuden käsittelykyky on heikkoKorkea läpäisy, tuki dynaamiselle eräajokäsittelylle ja tuhansia samanaikaisia pyyntöjä
Resurssien hallintaSäädä resurssien käyttöä joustavasti ja vapauta automaattisesti videomuisti, kun se on tyhjäkäynnilläVideomuistin käyttö on kiinteä, ja resursseja täytyy varata huippukuormien hallintaan


Lyhyt johdanto vLLM-peleihin

vLLM on nopea ja helppokäyttöinen LLM-päättely- ja palvelukirjasto.

vLLM uusilla algoritmeilla määrittelee uudelleen LLM-palveluiden uusimman teknologiatason: . Verrattuna HuggingFace Transformersiin, se tarjoaa jopa 24 kertaa suuremman läpimenon ilman malliarkkitehtuurin muutoksia. Hajautusnopeuden puolittamista ja läpimenon kymmenkertaistamista tutkimuksessa verrattiin vLLM:n läpäisykykyä suosituimpaan LLM-kirjastoon, HuggingFace Transformersiin (HF), ja aiempaan HuggingFace Text Generation Inferenceyn (TGI) SOTA-läpimenokykyyn. Lisäksi tutkimus jakoi kokeellisen kokoonpanon kahteen tyyppiin: LLaMA-7B, jossa laitteistona on NVIDIA A10G GPU; Toinen on LLaMA-13B, jossa on NVIDIA A100 GPU (40GB) laitteistolla. He ottavat näytteitä syöte- ja tulostuspituudet ShareGPT-aineistosta. Tulokset osoittivat, että vLLM:n läpäisykyky oli 24 kertaa suurempi kuin HF:n ja 3,5 kertaa suurempi kuin TGI:n.

vLLM-dokumentaatio:Hyperlinkin kirjautuminen on näkyvissä.
Lähdekoodin osoite:Hyperlinkin kirjautuminen on näkyvissä.
Suorituskyvyn testaus:Hyperlinkin kirjautuminen on näkyvissä.



Sinun ei tarvitse ymmärtää kuvaa, lehmä on valmis!

Ympäristön valmistelu

Ostin Tencent Cloudin suorituskykyiset sovelluspalvelut ja konfiguroin ne seuraavasti:

Ubuntu 20.04
Ympäristön asetukset: Ubuntu 20.04, ajuri 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Laskentatehotyyppi: Kaksikorttiinen GPU:n perustyyppi - 2*16GB+ | 16+TFlops SP | CPU - 16 ydintä | RAM-muisti - 64GB

Asenna Conda

Luo python-ympäristö condalla, liitä skripti suoraan:


Käynnistä DeepSeek-R1 vLLM:n avulla

Luo python-ympäristö condalla seuraavalla komennolla:


Asenna vllm ja modelscope seuraavilla komennoilla:


Lataa DeepSeek-R1-malli modelscopella seuraavalla komennolla:


Viittaus:Hyperlinkin kirjautuminen on näkyvissä.

Aloita deepseeke-malli vllm:llä seuraavalla komennolla:




Jos kohtaat "Bfloat16 on tuettu vain GPU:illa, joiden laskentateho on vähintään 8.0. Tesla T4 -näytönohjaimesi laskentateho on 7.5. Voit käyttää float16:ta sen sijaan asettamalla 'dtype'-lipun nimenomaan CLI:ssä, esimerkiksi: --dtype=half." Varoitus, lisää vain parametrit varoituksen mukaan.

Huomautus:

  • --tensor-rinnakkaiskoko ja näytönohjainten määrän asetukset
  • --GPU-muistin käyttö säätelee käytetyn muistin osuutta
  • --served-model-name API:ssa käytetty mallinimi
  • --disable-log-requests poistaa lokipyynnöt käytöstä


vLLM Linux GPU:n asennusdokumentaatio:Hyperlinkin kirjautuminen on näkyvissä.
Moottorin parametrit:Hyperlinkin kirjautuminen on näkyvissä.

Katso näytönohjaimen tila alla:



Käytä Postman-testejä

Selain auki:http://ip:8000/
Käyttöliittymädokumentaatio:http://ip:8000/docs



Postimies call, kuten seuraavassa kuvassa näkyy:




Esikuva-analyysi

Lataa testikoodi seuraavalla komennolla:


Käsky suoritetaan seuraavasti:


Tulos: Läpimenokyky: 2,45 pyyntöä/s, 1569,60 kokonaistokeneita/s, 1255,68 output tokeneita/s



(Loppu)




Edellinen:Kotiverkko alkaa GL-MT3000-reitittimellä
Seuraava:Webmasterin itsemediatili
 Vuokraisäntä| Julkaistu 2025-3-12 klo 15:14:42 |
Vllm:n tai sglangin käyttöä Windowsissa ei tällä hetkellä tueta, ja jos haluat ajaa sitä Windowsilla, voit käyttää WSL:ää (Windows Subsystem for Linux).
 Vuokraisäntä| Julkaistu 2025-8-18 klo 11:46:22 |
Muut päättelykehykset: TensorRT, vLLM, LMDeploy ja MLC-LLM, sglang
Vastuuvapauslauseke:
Kaikki Code Farmer Networkin julkaisemat ohjelmistot, ohjelmamateriaalit tai artikkelit ovat tarkoitettu vain oppimis- ja tutkimustarkoituksiin; Yllä mainittua sisältöä ei saa käyttää kaupallisiin tai laittomiin tarkoituksiin, muuten käyttäjät joutuvat kantamaan kaikki seuraukset. Tämän sivuston tiedot ovat peräisin internetistä, eikä tekijänoikeuskiistat liity tähän sivustoon. Sinun tulee poistaa yllä oleva sisältö kokonaan tietokoneeltasi 24 tunnin kuluessa lataamisesta. Jos pidät ohjelmasta, tue aitoa ohjelmistoa, osta rekisteröityminen ja hanki parempia aitoja palveluita. Jos rikkomuksia ilmenee, ota meihin yhteyttä sähköpostitse.

Mail To:help@itsvse.com