Ta članek je zrcalni članek strojnega prevajanja, kliknite tukaj za skok na izvirni članek.

Pogled: 1547|Odgovoriti: 2

[AI] (9) Uporaba vLLM za uvajanje modelov DeepSeek-R1 na ravni podjetij

[Kopiraj povezavo]
Objavljeno 6. 3. 2025 ob 11:23:03 | | | |
Zahteve: Prej sem uporabljal model deepseek-r1:32b z Ollama, ki je zelo priročen in hiter, primeren za osebno hitro uporabo. Če gre za produkcijsko okolje za podjetja, kako naj ga namestimo? Na splošno se za uvajanje uporabljata vllm in sglang, ta članek pa uporablja vLLM za uvajanje modela DeepSeek-R1.

Ollama proti vLLM

Razlike so naslednje:

Dimenzije kontrastaOllamavLLM
Pozicioniranje jedraLahka lokalizacijska orodja za posamezne razvijalce in manjše eksperimenteSklepni okvir na produkcijski ravni, osredotočen na scenarije na ravni podjetja z visoko sočasnostjo in nizko zakasnitvijo
Strojne zahtevePodpira CPU in GPU, nizka pomnilniška poraba (privzeto uporablja kvantizacijski model)Zanašati se je na NVIDIA grafične kartice, ki imajo veliko porabo pomnilnika
Podpora modelomVgrajena knjižnica vnaprej treniranih modelov (podpira 1700+ modelov), samodejni prenos kvantitativnih različic (predvsem int4)Ročni prenos izvirne datoteke modela (npr. format HuggingFace) podpira širši nabor modelov
Težavnost uvedbeNamestitev z enim gumbom in uporaba takoj iz škatle brez potrebe po programski osnoviPotrebno je Python okolje in gonilnik CUDA, prav tako tehnične izkušnje
Značilnosti zmogljivostiHitrost enojne inference je hitra, vendar je sposobnost sočasnega procesiranja šibkaVisoka prepustnost, podpora dinamičnemu serijskemu procesiranju in tisoči sočasnih zahtevkov
Upravljanje virovPrilagodljivo prilagajanje uporabe virov in samodejno sprostitev video pomnilnika v mirovanjuZasedenost video pomnilnika je fiksna, viri pa morajo biti rezervirani za obvladovanje vršnih obremenitev


Kratek uvod v vLLM

vLLM je hitra in enostavna za uporabo knjižnica sklepanja in storitev LLM.

vLLM z novimi algoritmi na novo opredeljuje najnovejšo tehnološko raven LLM storitev: . V primerjavi z HuggingFace Transformers ponuja do 24-krat večjo prepustnost brez kakršnihkoli sprememb arhitekture modela. S prepolovico hashrate in desetkratnim povečanjem prepustnosti je študija primerjala prepustnost vLLM z najbolj priljubljeno knjižnico LLM, HuggingFace Transformers (HF), in prejšnjo HuggingFace Text Generation Inference (TGI) s SOTA prepustnostjo. Poleg tega je študija eksperimentalno postavitev razdelila na dve vrsti: LLaMA-7B z NVIDIA A10G GPU kot strojno opremo; Drugi je LLaMA-13B, z NVIDIA A100 grafično kartico (40GB) na strojni opremi. Vzeli so vzorce dolžin vhodnih in izhodnih podatkov iz ShareGPT podatkovnega nabora. Rezultati so pokazali, da je bila prepustnost vLLM 24-krat višja od HF in 3,5-krat višja od TGI.

vLLM dokumentacija:Prijava do hiperpovezave je vidna.
Naslov izvorne kode:Prijava do hiperpovezave je vidna.
Testiranje zmogljivosti:Prijava do hiperpovezave je vidna.



Ni ti treba razumeti slike, krava je končana!

Okoljska priprava

Kupil sem visokozmogljive aplikacijske storitve Tencent Cloud in jih konfiguriral na naslednji način:

Ubuntu 20.04
Konfiguracija okolja: Ubuntu 20.04, gonilnik 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Tip računske moči: Osnovni tip GPU z dvema karticama - 2*16GB+ | 16+TFlops SP | CPU - 16 jeder | RAM - 64GB

Namestite Condo

Ustvari python okolje s condo, prilepi skripto neposredno:


Namestitev DeepSeek-R1 z uporabo vLLM

Ustvarite python okolje s condo z naslednjim ukazom:


Namestite vllm in modelscope z naslednjimi ukazi:


Prenesite model DeepSeek-R1 z uporabo modelscope z naslednjim ukazom:


Referenčni:Prijava do hiperpovezave je vidna.

Začnite model deepseek z uporabo vllm z naslednjim ukazom:




Če naletite na "Bfloat16", je podprt samo na grafičnih karticah z računsko zmogljivostjo vsaj 8.0. Vaša Tesla T4 grafična kartica ima računalniško zmogljivost 7,5. Namesto tega lahko uporabite float16 z eksplicitno nastavitvijo zastavice 'dtype' v CLI, na primer: --dtype=half." Opozorilo, samo dodajte parametre glede na opozorilo.

Pripombo:

  • --nastavitve velikosti tenzorja in števila GPU
  • --GPU-Izraba pomnilnika nadzoruje odstotek uporabljenega pomnilnika
  • --served-model-name Ime modela, uporabljeno v API-ju
  • --disable-log-requests onemogoči zahteve za beleženje


Dokumentacija za namestitev vLLM Linux GPU:Prijava do hiperpovezave je vidna.
Parametri motorja:Prijava do hiperpovezave je vidna.

Preverite stanje grafične kartice, kot je prikazano spodaj:



Uporabite teste poštarja

Odprt brskalnik:http://ip:8000/
Dokumentacija vmesnika:http://ip:8000/docs



Poštarski klic, kot je prikazano na naslednji sliki:




Benchmarking

Prenesite testno kodo z naslednjim ukazom:


Ukaz se izvede na naslednji način:


Rezultat: Prepustnost: 2,45 zahtev/s, 1569,60 skupaj žetonov/s, 1255,68 izhodnih žetonov/s



(Konec)




Prejšnji:Domače omrežje se začne z usmerjevalnikom GL-MT3000
Naslednji:Webmasterjev samo-medijski račun
 Najemodajalec| Objavljeno 12. 3. 2025 ob 15:14:42 |
Uporaba vllm ali sglang na Windows trenutno ni podprta, in če želite zagnati na Windows, lahko uporabite WSL (Windows Subsystem for Linux).
 Najemodajalec| Objavljeno 18. 8. 2025 ob 11:46:22 |
Drugi inferenčni okviri: TensorRT, vLLM, LMDeploy in MLC-LLM, sglang
Disclaimer:
Vsa programska oprema, programski materiali ali članki, ki jih izdaja Code Farmer Network, so namenjeni zgolj učnim in raziskovalnim namenom; Zgornja vsebina ne sme biti uporabljena v komercialne ali nezakonite namene, sicer uporabniki nosijo vse posledice. Informacije na tej strani prihajajo z interneta, spori glede avtorskih pravic pa nimajo nobene zveze s to stranjo. Zgornjo vsebino morate popolnoma izbrisati z računalnika v 24 urah po prenosu. Če vam je program všeč, podprite pristno programsko opremo, kupite registracijo in pridobite boljše pristne storitve. Če pride do kakršne koli kršitve, nas prosimo kontaktirajte po elektronski pošti.

Mail To:help@itsvse.com