Vaatimukset: Olen aiemmin ottanut käyttöön deepseek-r1:32b-mallin Ollamalla, joka on erittäin kätevä ja nopea, sopiva henkilökohtaiseen nopeaan käyttöönottoon. Jos kyseessä on yritystuotantoympäristö, miten se tulisi ottaa käyttöön? Yleisesti ottaen käyttöönotossa käytetään vllm:ää ja sglangia, ja tässä artikkelissa käytetään vLLM:ää DeepSeek-R1-mallin käyttöönottoon.
Ollama vs. vLLM
Erot ovat seuraavat:
| Kontrastimitat | Ollama | vLLM | | Ytimen sijoittaminen | Kevyet lokalisointityökalut yksittäisille kehittäjille ja pienimuotoisille kokeiluille | Tuotantotason päättelykehys, joka keskittyy yritystason skenaarioihin, joissa on korkea samanaikaisuus ja matala viive | | Laitteistovaatimukset | Tukee CPU:ta ja GPU:ta, pieni muistin jalanjälki (käyttää oletuksena kvantisointimallia) | Täytyy luottaa NVIDIA-näytönohjaimiin, joilla on korkea muistinkulutus | | Mallituki | Sisäänrakennettu esikoulutettu mallikirjasto (tukee 1700+ mallia), automaattinen määrällisten versioiden lataus (pääasiassa int4) | Alkuperäisen mallitiedoston manuaalinen lataus (esim. HuggingFace-muoto) tukee laajempaa mallivalikoimaa | | Käyttöönoton vaikeus | Yhden painikkeen asennus ja valmiiksi tarkoitettu käyttö ilman ohjelmointipohjaa | Python-ympäristö ja CUDA-ajuri ovat välttämättömiä, ja tekninen kokemus vaaditaan | | Suorituskykyominaisuudet | Yksittäisen päättelyn nopeus on nopea, mutta samanaikaisuuden käsittelykyky on heikko | Korkea läpäisy, tuki dynaamiselle eräajokäsittelylle ja tuhansia samanaikaisia pyyntöjä | | Resurssien hallinta | Säädä resurssien käyttöä joustavasti ja vapauta automaattisesti videomuisti, kun se on tyhjäkäynnillä | Videomuistin käyttö on kiinteä, ja resursseja täytyy varata huippukuormien hallintaan |
Lyhyt johdanto vLLM-peleihin
vLLM on nopea ja helppokäyttöinen LLM-päättely- ja palvelukirjasto.
vLLM uusilla algoritmeilla määrittelee uudelleen LLM-palveluiden uusimman teknologiatason: . Verrattuna HuggingFace Transformersiin, se tarjoaa jopa 24 kertaa suuremman läpimenon ilman malliarkkitehtuurin muutoksia. Hajautusnopeuden puolittamista ja läpimenon kymmenkertaistamista tutkimuksessa verrattiin vLLM:n läpäisykykyä suosituimpaan LLM-kirjastoon, HuggingFace Transformersiin (HF), ja aiempaan HuggingFace Text Generation Inferenceyn (TGI) SOTA-läpimenokykyyn. Lisäksi tutkimus jakoi kokeellisen kokoonpanon kahteen tyyppiin: LLaMA-7B, jossa laitteistona on NVIDIA A10G GPU; Toinen on LLaMA-13B, jossa on NVIDIA A100 GPU (40GB) laitteistolla. He ottavat näytteitä syöte- ja tulostuspituudet ShareGPT-aineistosta. Tulokset osoittivat, että vLLM:n läpäisykyky oli 24 kertaa suurempi kuin HF:n ja 3,5 kertaa suurempi kuin TGI:n.
vLLM-dokumentaatio:Hyperlinkin kirjautuminen on näkyvissä. Lähdekoodin osoite:Hyperlinkin kirjautuminen on näkyvissä. Suorituskyvyn testaus:Hyperlinkin kirjautuminen on näkyvissä.
Sinun ei tarvitse ymmärtää kuvaa, lehmä on valmis!
Ympäristön valmistelu
Ostin Tencent Cloudin suorituskykyiset sovelluspalvelut ja konfiguroin ne seuraavasti:
Ubuntu 20.04 Ympäristön asetukset: Ubuntu 20.04, ajuri 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Laskentatehotyyppi: Kaksikorttiinen GPU:n perustyyppi - 2*16GB+ | 16+TFlops SP | CPU - 16 ydintä | RAM-muisti - 64GB
Asenna Conda
Luo python-ympäristö condalla, liitä skripti suoraan:
Käynnistä DeepSeek-R1 vLLM:n avulla
Luo python-ympäristö condalla seuraavalla komennolla:
Asenna vllm ja modelscope seuraavilla komennoilla:
Lataa DeepSeek-R1-malli modelscopella seuraavalla komennolla:
Viittaus:Hyperlinkin kirjautuminen on näkyvissä.
Aloita deepseeke-malli vllm:llä seuraavalla komennolla:
Jos kohtaat "Bfloat16 on tuettu vain GPU:illa, joiden laskentateho on vähintään 8.0. Tesla T4 -näytönohjaimesi laskentateho on 7.5. Voit käyttää float16:ta sen sijaan asettamalla 'dtype'-lipun nimenomaan CLI:ssä, esimerkiksi: --dtype=half." Varoitus, lisää vain parametrit varoituksen mukaan.
Huomautus:
- --tensor-rinnakkaiskoko ja näytönohjainten määrän asetukset
- --GPU-muistin käyttö säätelee käytetyn muistin osuutta
- --served-model-name API:ssa käytetty mallinimi
- --disable-log-requests poistaa lokipyynnöt käytöstä
vLLM Linux GPU:n asennusdokumentaatio:Hyperlinkin kirjautuminen on näkyvissä. Moottorin parametrit:Hyperlinkin kirjautuminen on näkyvissä.
Katso näytönohjaimen tila alla:
Käytä Postman-testejä
Selain auki:http://ip:8000/ Käyttöliittymädokumentaatio:http://ip:8000/docs
Postimies call, kuten seuraavassa kuvassa näkyy:
Esikuva-analyysi
Lataa testikoodi seuraavalla komennolla:
Käsky suoritetaan seuraavasti:
Tulos: Läpimenokyky: 2,45 pyyntöä/s, 1569,60 kokonaistokeneita/s, 1255,68 output tokeneita/s
(Loppu) |