Prasības: Es iepriekš esmu izvietojis deepseek-r1: 32b modeli ar Ollama, kas ir ļoti ērts un ātrs, piemērots personīgai ātrai izvietošanai. Ja tā ir uzņēmuma ražošanas vide, kā tā būtu jāizvieto? Parasti izvietošanai tiek izmantoti vllm un sglang, un šajā rakstā tiek izmantots vLLM, lai izvietotu DeepSeek-R1 modeli.
Ollama pret vLLM
Atšķirības ir šādas:
| Kontrasta izmēri | Ollama | vLLM | | Kodola pozicionēšana | Vienkārši lokalizācijas rīki individuāliem izstrādātājiem un neliela mēroga eksperimentiem | Ražošanas līmeņa secinājumu sistēma, koncentrējoties uz uzņēmuma līmeņa scenārijiem ar augstu vienlaicīgumu un zemu latentumu | | Aparatūras prasības | Atbalsta CPU un GPU, zemu atmiņas nospiedumu (pēc noklusējuma izmanto kvantēšanas modeli) | Jāpaļaujas uz NVIDIA GPU, kuriem ir liels atmiņas lietojums | | Modeļu atbalsts | Iebūvēta iepriekš apmācīta modeļu bibliotēka (atbalsta 1700+ modeļus), automātiska kvantitatīvo versiju lejupielāde (galvenokārt int4) | Oriģinālā modeļa faila manuāla lejupielāde (piemēram, HuggingFace formāts) atbalsta plašāku modeļu klāstu | | Izvietošanas grūtības | Uzstādīšana ar vienu pogu un lietošana bez programmēšanas bāzes | Nepieciešama Python vide un CUDA draiveris, kā arī nepieciešama tehniskā pieredze | | Veiktspējas raksturlielumi | Viena secinājuma ātrums ir ātrs, bet vienlaicīgas apstrādes spēja ir vāja | Augsta caurlaidspēja, dinamiskas pakešu apstrādes atbalsts un tūkstošiem vienlaicīgu pieprasījumu | | resursu pārvaldība | Elastīgi pielāgojiet resursu lietojumu un automātiski atbrīvojiet video atmiņu dīkstāvē | Video atmiņas aizņemtība ir fiksēta, un resursi ir jārezervē, lai tiktu galā ar maksimālo slodzi |
Īss ievads vLLM
vLLM ir ātra un ērti lietojama LLM secinājumu un pakalpojumu bibliotēka.
vLLM ar jauniem algoritmiem no jauna definē jaunāko LLM pakalpojumu tehnoloģiju līmeni: . Salīdzinot ar HuggingFace Transformers, tas piedāvā līdz pat 24x lielāku caurlaidspēju bez modeļa arhitektūras izmaiņām. Uz pusi samazinot hashrate un desmitkārtīgi palielinot caurlaidspēju, pētījumā vLLM caurlaidspēja tika salīdzināta ar populārāko LLM bibliotēku HuggingFace Transformers (HF) un iepriekšējo HuggingFace teksta ģenerēšanas secinājumu (TGI) ar SOTA caurlaidspēju. Turklāt pētījumā eksperimentālais iestatījums tika sadalīts divos veidos: LLaMA-7B ar NVIDIA A10G GPU kā aparatūru; Otrs ir LLaMA-13B ar NVIDIA A100 GPU (40 GB) aparatūrā. Viņi izlasīja ievades/izvades garumus no ShareGPT datu kopas. Rezultāti parādīja, ka vLLM caurlaidspēja bija 24 reizes lielāka nekā HF un 3,5 reizes lielāka nekā TGI.
vLLM dokumentācija:Hipersaites pieteikšanās ir redzama. Avota koda adrese:Hipersaites pieteikšanās ir redzama. Veiktspējas pārbaude:Hipersaites pieteikšanās ir redzama.
Jums nav jāsaprot attēls, govs ir gatava!
Vides sagatavošana
Es iegādājos Tencent Cloud augstas veiktspējas lietojumprogrammu pakalpojumus un konfigurēju tos šādi:
Ubuntu 20.04 Vides konfigurācija: Ubuntu 20.04, draiveris 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Skaitļošanas jaudas tips: Divu karšu GPU pamata tips - 2*16GB+ | 16+TFlops SP | Procesors - 16 kodoli | Operatīvā atmiņa - 64GB
Instalējiet Conda
Izveidojiet python vidi ar conda, ielīmējiet skriptu tieši:
DeepSeek-R1 izvietošana, izmantojot vLLM
Izveidojiet python vidi ar conda ar šādu komandu:
Instalējiet vllm un modelscope ar šādām komandām:
Lejupielādējiet DeepSeek-R1 modeli, izmantojot modelscope ar šādu komandu:
Atsauce:Hipersaites pieteikšanās ir redzama.
Sāciet deepseek modeli, izmantojot vllm ar šādu komandu:
Ja rodas "Bfloat16 tiek atbalstīts tikai GPU ar skaitļošanas spēju vismaz 8.0. Jūsu Tesla T4 GPU ir skaitļošanas spēja 7.5. Tā vietā varat izmantot float16, skaidri iestatot karodziņu "dtype" CLI, piemēram: --dtype=half. Brīdinājums, vienkārši pievienojiet parametrus saskaņā ar brīdinājumu.
Piezīme:
- --tensor-paralēlā izmēra un GPU skaita iestatījumi
- --gpu-memory-utilization kontrolē izmantotās atmiņas procentuālo daļu
- --served-model-name API izmantotais modeļa nosaukums
- --disable-log-requests atspējo reģistrēšanas pieprasījumus
vLLM Linux GPU instalēšanas dokumentācija:Hipersaites pieteikšanās ir redzama. Dzinēja parametri:Hipersaites pieteikšanās ir redzama.
Pārbaudiet GPU statusu, kā parādīts tālāk:
Pastnieka testu izmantošana
Pārlūkprogrammas atvēršana:http://ip:8000/ Interfeisa dokumentācija:http://ip:8000/docs
Pastnieka zvans, kā parādīts šajā attēlā:
Benchmarking
Lejupielādējiet testa kodu ar šādu komandu:
Komanda tiek izpildīta šādi:
Rezultāts: Caurlaidspēja: 2.45 pieprasījumi/s, 1569.60 kopējie žetoni/s, 1255.68 izejas žetoni/s
(Beigas) |