Ez a cikk egy tükör gépi fordítás, kérjük, kattintson ide, hogy ugorjon az eredeti cikkre.

Nézet: 1547|Válasz: 2

[AI] (9) A vLLM vállalati szintű DeepSeek-R1 modellek telepítése

[Linket másol]
Közzétéve: 2025-3-6 11:23:03 | | | |
Követelmények: Korábban már telepítettem a deepseek-r1:32b modellt Ollama-val, ami nagyon kényelmes és gyors, alkalmas személyes, gyors telepítésre. Ha ez egy vállalati gyártási környezet, hogyan kellene telepíteni? Általában a vllm és a sglang használata a telepítéshez, és ez a cikk a vLLM-et használja a DeepSeek-R1 modell telepítéséhez.

Ollama vs. vLLM

A különbségek a következők:

KontrasztdimenziókOllamavLLM
Mag pozícionálásKönnyű lokalizációs eszközök egyéni fejlesztők és kisebb léptékű kísérletek számáraTermelési szintű következtetési keretrendszer, amely vállalati szintű forgatókönyvekre fókuszál, magas egyidejű és alacsony késleltetésű
HarverkövetelményekTámogatja a CPU-t és GPU-t, alacsony memóriaigényt (alapértelmezés szerint kvantáló modellt használ)NVIDIA GPU-kra kell támaszkodni, amelyek magas memóriahasználattal rendelkeznek
Modell támogatásBeépített előre beképzett modellkönyvtár (támogatja az 1700+ modellt), automatikus mennyiségi verziók letöltése (főként int4)Az eredeti modellfájl manuális letöltése (pl. HuggingFace formátum) szélesebb modellválasztékot támogat
A telepítés nehézségeiEgy gombos telepítés és dobozból kirendelt használat programozási alap nélkülPython környezet és CUDA driver, valamint műszaki tapasztalat szükséges
TeljesítményjellemzőkAz egyetlen következtetés sebessége gyors, de az egyidejű feldolgozás képessége gyengeNagy áteresztőképesség, dinamikus köteges feldolgozás támogatása és több ezer párhuzamos kérés
Erőforrás-kezelésRugalmasan állítsd be az erőforrás-felhasználást, és automatikusan szabadítsd ki a videómemóriát tétlen állapotbanA videómemória elfoglaltsága fix, és erőforrásokat kell fenntartani a csúcsterhelések kezelésére


Rövid bevezetés a vLLM-ekhez

A vLLM egy gyors és könnyen használható könyvtár LLM következtetéseket és szolgáltatásokat.

A vLLM új algoritmusokkal újradefiniálja az LLM szolgáltatások legújabb technológiai szintjét: . A HuggingFace Transformershez képest akár 24-szer nagyobb áteresztőképességet kínál modellarchitektúra módosítása nélkül. A hashrate-t felére csökkentve és az áteresztőképesség tízszeresére növelve a vLLM áteresztőképességét a legnépszerűbb LLM könyvtárral, a HuggingFace Transformers-szel (HF) és a korábbi HuggingFace Text Generation Inference-vel (TGI) összehasonlította a SOTA áteresztőképességgel. Ezen felül a tanulmány a kísérleti beállítást két típusra osztotta: LLaMA-7B NVIDIA A10G GPU-val hardverként; A másik az LLaMA-13B, NVIDIA A100 GPU-val (40GB) hardveren. Mintavételezték a ShareGPT adathalmazból a bemeneti/kimeneti hosszokat. Az eredmények azt mutatták, hogy a vLLM áteresztőképessége 24-szer magasabb volt, mint a HF-é, és 3,5-szer magasabb, mint a TGI-é.

vLLM dokumentáció:A hiperlink bejelentkezés látható.
Forráskód cím:A hiperlink bejelentkezés látható.
Teljesítménytesztelés:A hiperlink bejelentkezés látható.



Nem kell értened a képet, a tehén vége!

Környezeti előkészítés

Megvásároltam a Tencent Cloud nagy teljesítményű alkalmazásszolgáltatásait, és a következőképpen konfiguráltam őket:

Ubuntu 20.04
Környezet konfiguráció: Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Számítási teljesítménytípus: Kétkártyás GPU alap típus - 2*16GB+ | 16+TFlops SP | CPU - 16 mag | RAM - 64GB

Telepítsd a Condát

Hozz létre python környezetet condával, illesztsd be közvetlenül a szkriptet:


Telepítse a DeepSeek-R1-et egy vLLM segítségével

Hozz létre python környezetet condával a következő parancskal:


Telepítse a vllm-et és a modelscope-ot a következő parancsokkal:


Töltse le a DeepSeek-R1 modellt modellscope segítségével a következő parancs segítségével:


Utalás:A hiperlink bejelentkezés látható.

Indítsd el a deepseek modellt a vllm-mel a következő parancsval:




Ha azt tapasztalod, hogy "a Bfloat16 csak olyan GPU-kon támogatott, amelyek számítási kapacitása legalább 8.0. A Tesla T4 GPU-d 7,5-ös számítási kapacitással rendelkezik. Használhatod a float16-ot helyette, ha kifejezetten beállítod a 'dtype' zászlót a CLI-ben, például: --dtype=half." Figyelem: csak add hozzá a paramétereket a figyelmeztetés szerint.

Megjegyzés:

  • --tensor-párhuzamos méret és GPU szám beállítások
  • --gpu-memory-utilization szabályozza a memória használatának százalékát
  • --served-model-name Az API-ban használt modellnév
  • --disenabled-log-requests letiltja a naplózási kéréseket


vLLM Linux GPU telepítési dokumentáció:A hiperlink bejelentkezés látható.
Motor paraméterek:A hiperlink bejelentkezés látható.

Nézd meg a GPU állapotát az alábbiak szerint:



Postman tesztek használata

Böngésző megnyitva:http://ip:8000/
Felületi dokumentáció:http://ip:8000/docs



Postás hívás, ahogy az alábbi képen látható:




Teljesítményértékelés

Töltse le a tesztkódot a következő parancsot:


A parancs a következőképpen történik:


Eredmény: Áteresztőképesség: 2,45 kérés/s, 1569,60 összesen token/s, 1255,68 kimeneti token/s



(Vége)




Előző:Az otthoni hálózat a GL-MT3000 routerrel kezdődik
Következő:Webmester önmédia fiókja
 Háziúr| Közzétéve: 2025-3-12 15:14:42 |
Jelenleg a vllm vagy a sglang használata Windowson nem támogatott, és ha Windowson akarod futtatni, használhatod helyette a WSL-t (Windows Subsystem for Linux).
 Háziúr| Közzétéve: 2025-8-18 11:46:22 |
Egyéb következtetési keretrendszerek: TensorRT, vLLM, LMDeploy és MLC-LLM, sglang
Lemondás:
A Code Farmer Network által közzétett összes szoftver, programozási anyag vagy cikk kizárólag tanulási és kutatási célokra szolgál; A fenti tartalmat nem szabad kereskedelmi vagy illegális célokra használni, különben a felhasználók viselik az összes következményet. Az oldalon található információk az internetről származnak, és a szerzői jogi vitáknak semmi köze ehhez az oldalhoz. A fenti tartalmat a letöltés után 24 órán belül teljesen törölni kell a számítógépéről. Ha tetszik a program, kérjük, támogassa a valódi szoftvert, vásároljon regisztrációt, és szerezzen jobb hiteles szolgáltatásokat. Ha bármilyen jogsértés történik, kérjük, vegye fel velünk a kapcsolatot e-mailben.

Mail To:help@itsvse.com