Bu makale makine çevirisi ayna makalesidir, orijinal makaleye geçmek için lütfen buraya tıklayın.

Görünüm: 1547|Yanıt: 2

[AI] (9) DeepSeek-R1 modellerinin vLLM kurumsal düzeyde dağıtımını kullanın

[Bağlantıyı kopyala]
2025-3-6 tarihinde 11:23:03 tarihinde yayınlandı | | | |
Gereksinimler: Daha önce Ollama ile birlikte çok kullanışlı ve hızlı olan deepseek-r1:32b modelini kullandım; bu model, kişisel hızlı dağıtım için uygun. Eğer bu kurumsal üretim ortamıysa, nasıl dağıtılmalı? Genellikle, dağıtım için vllm ve sglang kullanılır ve bu makale DeepSeek-R1 modelini dağıtmak için vLLM kullanır.

Ollama vs. vLLM

Farklar şunlardır:

Kontrast boyutlarıOllamavLLM
Çekirdek konumlandırmaBireysel geliştiriciler ve küçük ölçekli deneyler için hafif yerelleştirme araçlarıYüksek eşdeğerlilik ve düşük gecikmeli kurumsal düzey senaryolara odaklanan üretim düzeyinde çıkarım çerçevesi
Donanım gereksinimleriCPU ve GPU'yu destekler, düşük bellek alanı (varsayılan olarak kuantizasyon modeli kullanır)Yüksek bellek kullanımına sahip NVIDIA GPU'larına güvenmek zorundayım
Model desteğiYerleşik önceden eğitilmiş model kütüphanesi (1700+ modeli destekliyor), nicel versiyonların otomatik indirilmesi (çoğunlukla int4)Orijinal model dosyasının manuel olarak indirilmesi (örneğin HuggingFace formatı) daha geniş model yelpazesini destekler
Konuşlandırma zorluğuTek düğme ile kurulum ve programlama temeli olmadan kutudan çıkmış kullanımPython ortamı ve CUDA sürücüsü gereklidir, teknik deneyim gereklidir
Performans özellikleriTek çıkarım hızı hızlıdır, ancak eşzamanlı işlem yeteneği zayıftırYüksek verimlilik, dinamik toplu işleme desteği ve binlerce eşzamanlı talep
Kaynak yönetimiKaynak kullanımını esnek ayarlayın ve boşta kaldığınızda video belleği otomatik olarak serbest bırakınVideo belleği doluluğu sabit ve kaynakların zirve yüklerle başa çıkmak için ayrılması gerekiyor


vLLM'lere kısa bir giriş

vLLM, LLM çıkarımı ve hizmetlerinden oluşan hızlı ve kullanımı kolay bir kütüphanedir.

vLLM, yeni algoritmalarla LLM hizmetlerinin en son teknoloji seviyesini yeniden tanımlıyor: . HuggingFace Transformers ile karşılaştırıldığında, model mimarisi değişikliği olmadan 24 katına kadar daha yüksek veri verimliliği sunuyor. Çalışma hashrate'i yarıya indirip veri verimini on kat artırarak, vLLM'nin veri kapasitesini en popüler LLM kütüphanesi HuggingFace Transformers (HF) ile ve önceki HuggingFace Metin Üretim Çıkarımı (TGI) ile SOTA geçirimliliği ile karşılaştırdı. Ayrıca, çalışma deneysel kurulumu iki tipe ayırdı: donanım olarak NVIDIA A10G GPU olan LLaMA-7B; Diğeri ise donanımda NVIDIA A100 GPU (40GB) bulunan LLaMA-13B. ShareGPT veri setinden giriş/çıkış uzunluklarını örneklediler. Sonuçlar, vLLM'in veri verimliliğinin HF'den 24 kat, TGI'den 3,5 kat daha yüksek olduğunu gösterdi.

vLLM dokümantasyonu:Bağlantı girişi görünür.
Kaynak kodu adresi:Bağlantı girişi görünür.
Performans Testi:Bağlantı girişi görünür.



Resmi anlamana gerek yok, bitti!

Çevresel hazırlık

Tencent Cloud yüksek performanslı uygulama hizmetlerini satın aldım ve bunları aşağıdaki şekilde yapılandırdım:

Ubuntu 20.04
Ortam yapılandırması: Ubuntu 20.04, Sürücü 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Hesaplama gücü türü: İki kartlı GPU temel tipi - 2*16GB+ | 16+TFlops SP | CPU - 16 çekirdek | RAM - 64GB

Conda Kurulum

Conda ile bir python ortamı oluşturun, doğrudan betikleri yapıştırın:


DeepSeek-R1'i vLLM kullanarak dağıtın

Aşağıdaki komutla conda ile bir python ortamı oluşturun:


Aşağıdaki komutlarla vllm ve modelscope'u kurun:


DeepSeek-R1 modelini modelscope kullanarak aşağıdaki komutla indirin:


Referans:Bağlantı girişi görünür.

Deepseek modelini vllm kullanarak aşağıdaki komutla başlatın:




Eğer "Bfloat16 sadece en az 8.0 hesaplama kapasitesine sahip GPU'larda destekleniyor. Tesla T4 GPU'nuzun hesaplama kapasitesi 7.5. Bunun yerine float16'yı CLI'da 'dtype' bayrağını açıkça ayarlayarak kullanabilirsiniz, örneğin: --dtype=half." Uyarı, sadece uyarıya göre parametreler ekleyin.

Açıklama:

  • --tensor-parallel-boyut ve GPU sayısı ayarları
  • --gpu-memory-utilization, kullanılan bellek yüzdesini kontrol eder
  • --served-model-name API'de kullanılan model adı
  • --disable-log-requests kayıt isteklerini devre dışı bırakıyor


vLLM Linux GPU Kurulum Dokümantı:Bağlantı girişi görünür.
Motor Parametreleri:Bağlantı girişi görünür.

GPU durumunu aşağıda gösterildiği gibi kontrol edin:



Postman testlerini kullanın

Tarayıcı açık:http://ip:8000/
Arayüz Dokümantı:http://ip:8000/docs



Postacı çağrısı, aşağıdaki görselde gösterildiği gibi:




Kıyaslama

Test kodunu aşağıdaki komutla indirin:


Komut şu şekilde yürütülür:


Sonuç: Verimlilik: 2.45 istek/s, toplam 1569.60 token/s, 1255.68 çıkış token/s



(Son)




Önceki:Ev ağı GL-MT3000 yönlendirici ile başlar
Önümüzdeki:Webmaster'ın kendi medya hesabı
 Ev sahibi| 2025-3-12 15:14:42 tarihinde yayınlandı |
Windows'ta vllm veya sglang kullanmak şu anda desteklenmiyor ve Windows'ta çalıştırmak istiyorsanız WSL (Windows Subsystem for Linux) kullanabilirsiniz.
 Ev sahibi| 2025-8-18 tarihinde 11:46:22 tarihinde yayınlandı |
Diğer çıkarım çerçeveleri: TensorRT, vLLM, LMDeploy ve MLC-LLM, sglang
Feragatname:
Code Farmer Network tarafından yayımlanan tüm yazılım, programlama materyalleri veya makaleler yalnızca öğrenme ve araştırma amaçları içindir; Yukarıdaki içerik ticari veya yasa dışı amaçlarla kullanılamaz, aksi takdirde kullanıcılar tüm sonuçları ödemelidir. Bu sitedeki bilgiler internetten alınmakta olup, telif hakkı anlaşmazlıklarının bu siteyle hiçbir ilgisi yoktur. Yukarıdaki içeriği indirmeden sonraki 24 saat içinde bilgisayarınızdan tamamen silmelisiniz. Programı beğendiyseniz, lütfen orijinal yazılımı destekleyin, kayıt satın alın ve daha iyi orijinal hizmetler alın. Herhangi bir ihlal olursa, lütfen bizimle e-posta yoluyla iletişime geçin.

Mail To:help@itsvse.com