Šis raksts ir mašīntulkošanas spoguļraksts, lūdzu, noklikšķiniet šeit, lai pārietu uz oriģinālo rakstu.

Skats: 1547|Atbildi: 2

[AI] (9) Izmantojiet vLLM uzņēmuma līmeņa DeepSeek-R1 modeļu izvietošanu

[Kopēt saiti]
Publicēts 2025-3-6 11:23:03 | | | |
Prasības: Es iepriekš esmu izvietojis deepseek-r1: 32b modeli ar Ollama, kas ir ļoti ērts un ātrs, piemērots personīgai ātrai izvietošanai. Ja tā ir uzņēmuma ražošanas vide, kā tā būtu jāizvieto? Parasti izvietošanai tiek izmantoti vllm un sglang, un šajā rakstā tiek izmantots vLLM, lai izvietotu DeepSeek-R1 modeli.

Ollama pret vLLM

Atšķirības ir šādas:

Kontrasta izmēriOllamavLLM
Kodola pozicionēšanaVienkārši lokalizācijas rīki individuāliem izstrādātājiem un neliela mēroga eksperimentiemRažošanas līmeņa secinājumu sistēma, koncentrējoties uz uzņēmuma līmeņa scenārijiem ar augstu vienlaicīgumu un zemu latentumu
Aparatūras prasībasAtbalsta CPU un GPU, zemu atmiņas nospiedumu (pēc noklusējuma izmanto kvantēšanas modeli)Jāpaļaujas uz NVIDIA GPU, kuriem ir liels atmiņas lietojums
Modeļu atbalstsIebūvēta iepriekš apmācīta modeļu bibliotēka (atbalsta 1700+ modeļus), automātiska kvantitatīvo versiju lejupielāde (galvenokārt int4)Oriģinālā modeļa faila manuāla lejupielāde (piemēram, HuggingFace formāts) atbalsta plašāku modeļu klāstu
Izvietošanas grūtībasUzstādīšana ar vienu pogu un lietošana bez programmēšanas bāzesNepieciešama Python vide un CUDA draiveris, kā arī nepieciešama tehniskā pieredze
Veiktspējas raksturlielumiViena secinājuma ātrums ir ātrs, bet vienlaicīgas apstrādes spēja ir vājaAugsta caurlaidspēja, dinamiskas pakešu apstrādes atbalsts un tūkstošiem vienlaicīgu pieprasījumu
resursu pārvaldībaElastīgi pielāgojiet resursu lietojumu un automātiski atbrīvojiet video atmiņu dīkstāvēVideo atmiņas aizņemtība ir fiksēta, un resursi ir jārezervē, lai tiktu galā ar maksimālo slodzi


Īss ievads vLLM

vLLM ir ātra un ērti lietojama LLM secinājumu un pakalpojumu bibliotēka.

vLLM ar jauniem algoritmiem no jauna definē jaunāko LLM pakalpojumu tehnoloģiju līmeni: . Salīdzinot ar HuggingFace Transformers, tas piedāvā līdz pat 24x lielāku caurlaidspēju bez modeļa arhitektūras izmaiņām. Uz pusi samazinot hashrate un desmitkārtīgi palielinot caurlaidspēju, pētījumā vLLM caurlaidspēja tika salīdzināta ar populārāko LLM bibliotēku HuggingFace Transformers (HF) un iepriekšējo HuggingFace teksta ģenerēšanas secinājumu (TGI) ar SOTA caurlaidspēju. Turklāt pētījumā eksperimentālais iestatījums tika sadalīts divos veidos: LLaMA-7B ar NVIDIA A10G GPU kā aparatūru; Otrs ir LLaMA-13B ar NVIDIA A100 GPU (40 GB) aparatūrā. Viņi izlasīja ievades/izvades garumus no ShareGPT datu kopas. Rezultāti parādīja, ka vLLM caurlaidspēja bija 24 reizes lielāka nekā HF un 3,5 reizes lielāka nekā TGI.

vLLM dokumentācija:Hipersaites pieteikšanās ir redzama.
Avota koda adrese:Hipersaites pieteikšanās ir redzama.
Veiktspējas pārbaude:Hipersaites pieteikšanās ir redzama.



Jums nav jāsaprot attēls, govs ir gatava!

Vides sagatavošana

Es iegādājos Tencent Cloud augstas veiktspējas lietojumprogrammu pakalpojumus un konfigurēju tos šādi:

Ubuntu 20.04
Vides konfigurācija: Ubuntu 20.04, draiveris 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Skaitļošanas jaudas tips: Divu karšu GPU pamata tips - 2*16GB+ | 16+TFlops SP | Procesors - 16 kodoli | Operatīvā atmiņa - 64GB

Instalējiet Conda

Izveidojiet python vidi ar conda, ielīmējiet skriptu tieši:


DeepSeek-R1 izvietošana, izmantojot vLLM

Izveidojiet python vidi ar conda ar šādu komandu:


Instalējiet vllm un modelscope ar šādām komandām:


Lejupielādējiet DeepSeek-R1 modeli, izmantojot modelscope ar šādu komandu:


Atsauce:Hipersaites pieteikšanās ir redzama.

Sāciet deepseek modeli, izmantojot vllm ar šādu komandu:




Ja rodas "Bfloat16 tiek atbalstīts tikai GPU ar skaitļošanas spēju vismaz 8.0. Jūsu Tesla T4 GPU ir skaitļošanas spēja 7.5. Tā vietā varat izmantot float16, skaidri iestatot karodziņu "dtype" CLI, piemēram: --dtype=half. Brīdinājums, vienkārši pievienojiet parametrus saskaņā ar brīdinājumu.

Piezīme:

  • --tensor-paralēlā izmēra un GPU skaita iestatījumi
  • --gpu-memory-utilization kontrolē izmantotās atmiņas procentuālo daļu
  • --served-model-name API izmantotais modeļa nosaukums
  • --disable-log-requests atspējo reģistrēšanas pieprasījumus


vLLM Linux GPU instalēšanas dokumentācija:Hipersaites pieteikšanās ir redzama.
Dzinēja parametri:Hipersaites pieteikšanās ir redzama.

Pārbaudiet GPU statusu, kā parādīts tālāk:



Pastnieka testu izmantošana

Pārlūkprogrammas atvēršana:http://ip:8000/
Interfeisa dokumentācija:http://ip:8000/docs



Pastnieka zvans, kā parādīts šajā attēlā:




Benchmarking

Lejupielādējiet testa kodu ar šādu komandu:


Komanda tiek izpildīta šādi:


Rezultāts: Caurlaidspēja: 2.45 pieprasījumi/s, 1569.60 kopējie žetoni/s, 1255.68 izejas žetoni/s



(Beigas)




Iepriekšējo:Mājas tīkls sākas ar GL-MT3000 maršrutētāju
Nākamo:Tīmekļa pārziņa pašpārziņa konts
 Saimnieks| Publicēts 2025-3-12 15:14:42 |
vllm vai sglang izmantošana operētājsistēmā Windows pašlaik netiek atbalstīta, un, ja vēlaties to palaist operētājsistēmā Windows, tā vietā varat izmantot WSL (Windows apakšsistēma Linux).
 Saimnieks| Publicēts 2025-8-18 11:46:22 |
Citi secinājumu ietvari: TensorRT, vLLM, LMDeploy un MLC-LLM, sglang
Atruna:
Visa programmatūra, programmēšanas materiāli vai raksti, ko publicē Code Farmer Network, ir paredzēti tikai mācību un pētniecības mērķiem; Iepriekš minēto saturu nedrīkst izmantot komerciāliem vai nelikumīgiem mērķiem, pretējā gadījumā lietotājiem ir jāuzņemas visas sekas. Informācija šajā vietnē nāk no interneta, un autortiesību strīdiem nav nekāda sakara ar šo vietni. Iepriekš minētais saturs ir pilnībā jāizdzēš no datora 24 stundu laikā pēc lejupielādes. Ja jums patīk programma, lūdzu, atbalstiet oriģinālu programmatūru, iegādājieties reģistrāciju un iegūstiet labākus oriģinālus pakalpojumus. Ja ir kādi pārkāpumi, lūdzu, sazinieties ar mums pa e-pastu.

Mail To:help@itsvse.com