Követelmények: Korábban már telepítettem a deepseek-r1:32b modellt Ollama-val, ami nagyon kényelmes és gyors, alkalmas személyes, gyors telepítésre. Ha ez egy vállalati gyártási környezet, hogyan kellene telepíteni? Általában a vllm és a sglang használata a telepítéshez, és ez a cikk a vLLM-et használja a DeepSeek-R1 modell telepítéséhez.
Ollama vs. vLLM
A különbségek a következők:
| Kontrasztdimenziók | Ollama | vLLM | | Mag pozícionálás | Könnyű lokalizációs eszközök egyéni fejlesztők és kisebb léptékű kísérletek számára | Termelési szintű következtetési keretrendszer, amely vállalati szintű forgatókönyvekre fókuszál, magas egyidejű és alacsony késleltetésű | | Harverkövetelmények | Támogatja a CPU-t és GPU-t, alacsony memóriaigényt (alapértelmezés szerint kvantáló modellt használ) | NVIDIA GPU-kra kell támaszkodni, amelyek magas memóriahasználattal rendelkeznek | | Modell támogatás | Beépített előre beképzett modellkönyvtár (támogatja az 1700+ modellt), automatikus mennyiségi verziók letöltése (főként int4) | Az eredeti modellfájl manuális letöltése (pl. HuggingFace formátum) szélesebb modellválasztékot támogat | | A telepítés nehézségei | Egy gombos telepítés és dobozból kirendelt használat programozási alap nélkül | Python környezet és CUDA driver, valamint műszaki tapasztalat szükséges | | Teljesítményjellemzők | Az egyetlen következtetés sebessége gyors, de az egyidejű feldolgozás képessége gyenge | Nagy áteresztőképesség, dinamikus köteges feldolgozás támogatása és több ezer párhuzamos kérés | | Erőforrás-kezelés | Rugalmasan állítsd be az erőforrás-felhasználást, és automatikusan szabadítsd ki a videómemóriát tétlen állapotban | A videómemória elfoglaltsága fix, és erőforrásokat kell fenntartani a csúcsterhelések kezelésére |
Rövid bevezetés a vLLM-ekhez
A vLLM egy gyors és könnyen használható könyvtár LLM következtetéseket és szolgáltatásokat.
A vLLM új algoritmusokkal újradefiniálja az LLM szolgáltatások legújabb technológiai szintjét: . A HuggingFace Transformershez képest akár 24-szer nagyobb áteresztőképességet kínál modellarchitektúra módosítása nélkül. A hashrate-t felére csökkentve és az áteresztőképesség tízszeresére növelve a vLLM áteresztőképességét a legnépszerűbb LLM könyvtárral, a HuggingFace Transformers-szel (HF) és a korábbi HuggingFace Text Generation Inference-vel (TGI) összehasonlította a SOTA áteresztőképességgel. Ezen felül a tanulmány a kísérleti beállítást két típusra osztotta: LLaMA-7B NVIDIA A10G GPU-val hardverként; A másik az LLaMA-13B, NVIDIA A100 GPU-val (40GB) hardveren. Mintavételezték a ShareGPT adathalmazból a bemeneti/kimeneti hosszokat. Az eredmények azt mutatták, hogy a vLLM áteresztőképessége 24-szer magasabb volt, mint a HF-é, és 3,5-szer magasabb, mint a TGI-é.
vLLM dokumentáció:A hiperlink bejelentkezés látható. Forráskód cím:A hiperlink bejelentkezés látható. Teljesítménytesztelés:A hiperlink bejelentkezés látható.
Nem kell értened a képet, a tehén vége!
Környezeti előkészítés
Megvásároltam a Tencent Cloud nagy teljesítményű alkalmazásszolgáltatásait, és a következőképpen konfiguráltam őket:
Ubuntu 20.04 Környezet konfiguráció: Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Számítási teljesítménytípus: Kétkártyás GPU alap típus - 2*16GB+ | 16+TFlops SP | CPU - 16 mag | RAM - 64GB
Telepítsd a Condát
Hozz létre python környezetet condával, illesztsd be közvetlenül a szkriptet:
Telepítse a DeepSeek-R1-et egy vLLM segítségével
Hozz létre python környezetet condával a következő parancskal:
Telepítse a vllm-et és a modelscope-ot a következő parancsokkal:
Töltse le a DeepSeek-R1 modellt modellscope segítségével a következő parancs segítségével:
Utalás:A hiperlink bejelentkezés látható.
Indítsd el a deepseek modellt a vllm-mel a következő parancsval:
Ha azt tapasztalod, hogy "a Bfloat16 csak olyan GPU-kon támogatott, amelyek számítási kapacitása legalább 8.0. A Tesla T4 GPU-d 7,5-ös számítási kapacitással rendelkezik. Használhatod a float16-ot helyette, ha kifejezetten beállítod a 'dtype' zászlót a CLI-ben, például: --dtype=half." Figyelem: csak add hozzá a paramétereket a figyelmeztetés szerint.
Megjegyzés:
- --tensor-párhuzamos méret és GPU szám beállítások
- --gpu-memory-utilization szabályozza a memória használatának százalékát
- --served-model-name Az API-ban használt modellnév
- --disenabled-log-requests letiltja a naplózási kéréseket
vLLM Linux GPU telepítési dokumentáció:A hiperlink bejelentkezés látható. Motor paraméterek:A hiperlink bejelentkezés látható.
Nézd meg a GPU állapotát az alábbiak szerint:
Postman tesztek használata
Böngésző megnyitva:http://ip:8000/ Felületi dokumentáció:http://ip:8000/docs
Postás hívás, ahogy az alábbi képen látható:
Teljesítményértékelés
Töltse le a tesztkódot a következő parancsot:
A parancs a következőképpen történik:
Eredmény: Áteresztőképesség: 2,45 kérés/s, 1569,60 összesen token/s, 1255,68 kimeneti token/s
(Vége) |