[AI] (9) Izmantojiet vLLM uzņēmuma līmeņa DeepSeek-R1 modeļu izvietošanu

Maz putas · Publicēts 06.03.2025 11:23:03

Prasības: Es iepriekš esmu izvietojis deepseek-r1: 32b modeli ar Ollama, kas ir ļoti ērts un ātrs, piemērots personīgai ātrai izvietošanai. Ja tā ir uzņēmuma ražošanas vide, kā tā būtu jāizvieto? Parasti izvietošanai tiek izmantoti vllm un sglang, un šajā rakstā tiek izmantots vLLM, lai izvietotu DeepSeek-R1 modeli.

Ollama pret vLLM

Atšķirības ir šādas:

Kontrasta izmēri	Ollama	vLLM
Kodola pozicionēšana	Vienkārši lokalizācijas rīki individuāliem izstrādātājiem un neliela mēroga eksperimentiem	Ražošanas līmeņa secinājumu sistēma, koncentrējoties uz uzņēmuma līmeņa scenārijiem ar augstu vienlaicīgumu un zemu latentumu
Aparatūras prasības	Atbalsta CPU un GPU, zemu atmiņas nospiedumu (pēc noklusējuma izmanto kvantēšanas modeli)	Jāpaļaujas uz NVIDIA GPU, kuriem ir liels atmiņas lietojums
Modeļu atbalsts	Iebūvēta iepriekš apmācīta modeļu bibliotēka (atbalsta 1700+ modeļus), automātiska kvantitatīvo versiju lejupielāde (galvenokārt int4)	Oriģinālā modeļa faila manuāla lejupielāde (piemēram, HuggingFace formāts) atbalsta plašāku modeļu klāstu
Izvietošanas grūtības	Uzstādīšana ar vienu pogu un lietošana bez programmēšanas bāzes	Nepieciešama Python vide un CUDA draiveris, kā arī nepieciešama tehniskā pieredze
Veiktspējas raksturlielumi	Viena secinājuma ātrums ir ātrs, bet vienlaicīgas apstrādes spēja ir vāja	Augsta caurlaidspēja, dinamiskas pakešu apstrādes atbalsts un tūkstošiem vienlaicīgu pieprasījumu
resursu pārvaldība	Elastīgi pielāgojiet resursu lietojumu un automātiski atbrīvojiet video atmiņu dīkstāvē	Video atmiņas aizņemtība ir fiksēta, un resursi ir jārezervē, lai tiktu galā ar maksimālo slodzi

Īss ievads vLLM

vLLM ir ātra un ērti lietojama LLM secinājumu un pakalpojumu bibliotēka.

vLLM ar jauniem algoritmiem no jauna definē jaunāko LLM pakalpojumu tehnoloģiju līmeni: . Salīdzinot ar HuggingFace Transformers, tas piedāvā līdz pat 24x lielāku caurlaidspēju bez modeļa arhitektūras izmaiņām. Uz pusi samazinot hashrate un desmitkārtīgi palielinot caurlaidspēju, pētījumā vLLM caurlaidspēja tika salīdzināta ar populārāko LLM bibliotēku HuggingFace Transformers (HF) un iepriekšējo HuggingFace teksta ģenerēšanas secinājumu (TGI) ar SOTA caurlaidspēju. Turklāt pētījumā eksperimentālais iestatījums tika sadalīts divos veidos: LLaMA-7B ar NVIDIA A10G GPU kā aparatūru; Otrs ir LLaMA-13B ar NVIDIA A100 GPU (40 GB) aparatūrā. Viņi izlasīja ievades/izvades garumus no ShareGPT datu kopas. Rezultāti parādīja, ka vLLM caurlaidspēja bija 24 reizes lielāka nekā HF un 3,5 reizes lielāka nekā TGI.

vLLM dokumentācija:Hipersaites pieteikšanās ir redzama.
Avota koda adrese:Hipersaites pieteikšanās ir redzama.
Veiktspējas pārbaude:Hipersaites pieteikšanās ir redzama.

Jums nav jāsaprot attēls, govs ir gatava!

Vides sagatavošana

Es iegādājos Tencent Cloud augstas veiktspējas lietojumprogrammu pakalpojumus un konfigurēju tos šādi:

Ubuntu 20.04
Vides konfigurācija: Ubuntu 20.04, draiveris 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Skaitļošanas jaudas tips: Divu karšu GPU pamata tips - 2*16GB+ | 16+TFlops SP | Procesors - 16 kodoli | Operatīvā atmiņa - 64GB

Instalējiet Conda

Izveidojiet python vidi ar conda, ielīmējiet skriptu tieši:

Pieteikšanās ir redzama.

DeepSeek-R1 izvietošana, izmantojot vLLM

Izveidojiet python vidi ar conda ar šādu komandu:

Pieteikšanās ir redzama.

Instalējiet vllm un modelscope ar šādām komandām:

Pieteikšanās ir redzama.

Lejupielādējiet DeepSeek-R1 modeli, izmantojot modelscope ar šādu komandu:

Pieteikšanās ir redzama.

Atsauce:Hipersaites pieteikšanās ir redzama.

Sāciet deepseek modeli, izmantojot vllm ar šādu komandu:

Pieteikšanās ir redzama.

Ja rodas "Bfloat16 tiek atbalstīts tikai GPU ar skaitļošanas spēju vismaz 8.0. Jūsu Tesla T4 GPU ir skaitļošanas spēja 7.5. Tā vietā varat izmantot float16, skaidri iestatot karodziņu "dtype" CLI, piemēram: --dtype=half. Brīdinājums, vienkārši pievienojiet parametrus saskaņā ar brīdinājumu.

Piezīme:

--tensor-paralēlā izmēra un GPU skaita iestatījumi
--gpu-memory-utilization kontrolē izmantotās atmiņas procentuālo daļu
--served-model-name API izmantotais modeļa nosaukums
--disable-log-requests atspējo reģistrēšanas pieprasījumus

vLLM Linux GPU instalēšanas dokumentācija:Hipersaites pieteikšanās ir redzama.
Dzinēja parametri:Hipersaites pieteikšanās ir redzama.

Pārbaudiet GPU statusu, kā parādīts tālāk:

Pastnieka testu izmantošana

Pārlūkprogrammas atvēršana:http://ip:8000/
Interfeisa dokumentācija:http://ip:8000/docs

Pastnieka zvans, kā parādīts šajā attēlā:

Pieteikšanās ir redzama.

Benchmarking

Lejupielādējiet testa kodu ar šādu komandu:

Pieteikšanās ir redzama.

Komanda tiek izpildīta šādi:

Pieteikšanās ir redzama.

Rezultāts: Caurlaidspēja: 2.45 pieprasījumi/s, 1569.60 kopējie žetoni/s, 1255.68 izejas žetoni/s

(Beigas)

Maz putas · Publicēts 12.03.2025 15:14:42

vllm vai sglang izmantošana operētājsistēmā Windows pašlaik netiek atbalstīta, un, ja vēlaties to palaist operētājsistēmā Windows, tā vietā varat izmantot WSL (Windows apakšsistēma Linux).

Maz putas · Publicēts 18.08.2025 11:46:22

Citi secinājumu ietvari: TensorRT, vLLM, LMDeploy un MLC-LLM, sglang

[AI] (9) Izmantojiet vLLM uzņēmuma līmeņa DeepSeek-R1 modeļu izvietošanu

Saistītās ziņas

Skatītās sadaļas