Artikel ini adalah artikel cermin dari terjemahan mesin, silakan klik di sini untuk melompat ke artikel aslinya.

Melihat: 1547|Jawab: 2

[AI] (9) Gunakan penerapan model DeepSeek-R1 tingkat perusahaan vLLM

[Salin tautan]
Dipaparkan pada 2025-3-6 11:23:03 | | | |
Persyaratan: Saya sebelumnya telah menggunakan model deepseek-r1:32b dengan Ollama, yang sangat nyaman dan cepat, cocok untuk penyebaran cepat pribadi. Jika itu adalah lingkungan produksi perusahaan, bagaimana seharusnya diterapkan? Umumnya, vllm dan sglang digunakan untuk penyebaran, dan artikel ini menggunakan vLLM untuk menyebarkan model DeepSeek-R1.

Ollama vs. vLLM

Perbedaannya adalah sebagai berikut:

Dimensi kontrasOllamavLLM
Pemosisian intiAlat pelokalan ringan untuk pengembang individu dan eksperimen skala kecilKerangka kerja inferensi tingkat produksi, berfokus pada skenario tingkat perusahaan dengan konkurensi tinggi dan latensi rendah
Persyaratan perangkat kerasMendukung CPU dan GPU, jejak memori rendah (menggunakan model kuantisasi secara default)Harus mengandalkan GPU NVIDIA, yang memiliki penggunaan memori tinggi
Dukungan modelPerpustakaan model pra-terlatih bawaan (mendukung 1700+ model), unduhan otomatis versi kuantitatif (terutama int4)Unduhan manual file model asli (misalnya format HuggingFace) mendukung model yang lebih luas
Kesulitan penyebaranInstalasi satu tombol dan penggunaan out-of-the-box tanpa memerlukan basis pemrogramanLingkungan Python dan driver CUDA diperlukan, dan pengalaman teknis diperlukan
Karakteristik kinerjaKecepatan inferensi tunggal cepat, tetapi kemampuan pemrosesan konkurensi lemahThroughput tinggi, dukungan untuk pemrosesan batch dinamis, dan ribuan permintaan bersamaan
Manajemen Sumber DayaSesuaikan penggunaan sumber daya secara fleksibel dan secara otomatis melepaskan memori video saat menganggurHunian memori video tetap, dan sumber daya perlu dicadangkan untuk mengatasi beban puncak


Pengantar singkat tentang vLLM

vLLM adalah perpustakaan inferensi dan layanan LLM yang cepat dan mudah digunakan.

vLLM dengan algoritme baru mendefinisikan ulang tingkat teknologi terbaru dari layanan LLM: . Dibandingkan dengan HuggingFace Transformers, ia menawarkan throughput hingga 24x lebih tinggi tanpa perubahan arsitektur model. Mengurangi separuh hashrate dan meningkatkan throughput sepuluh kali lipat, studi ini membandingkan throughput vLLM dengan pustaka LLM paling populer, HuggingFace Transformers (HF), dan HuggingFace Text Generation Inference (TGI) sebelumnya dengan throughput SOTA. Selain itu, penelitian ini membagi pengaturan eksperimental menjadi dua jenis: LLaMA-7B dengan GPU NVIDIA A10G sebagai perangkat keras; Yang lainnya adalah LLaMA-13B, dengan GPU NVIDIA A100 (40GB) pada perangkat keras. Mereka mengambil sampel panjang input/output dari kumpulan data ShareGPT. Hasil penelitian menunjukkan bahwa throughput vLLM 24 kali lebih tinggi dari HF dan 3,5 kali lebih tinggi dari TGI.

Dokumentasi vLLM:Login hyperlink terlihat.
Alamat kode sumber:Login hyperlink terlihat.
Pengujian Kinerja:Login hyperlink terlihat.



Anda tidak perlu memahami gambarnya, sapi sudah selesai!

Persiapan lingkungan

Saya membeli layanan aplikasi berkinerja tinggi Tencent Cloud dan mengonfigurasinya sebagai berikut:

Ubuntu 20.04
Konfigurasi lingkungan: Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Jenis daya komputasi: Tipe dasar GPU dua kartu - 2*16GB+ | 16+TFlops SP | CPU - 16 inti | RAM - 64GB

Instal Conda

Buat lingkungan python dengan conda, tempelkan skrip secara langsung:


Menyebarkan DeepSeek-R1 menggunakan vLLM

Buat lingkungan python dengan conda dengan perintah berikut:


Instal vllm dan modelscope dengan perintah berikut:


Unduh model DeepSeek-R1 menggunakan modelscope dengan perintah berikut:


Referensi:Login hyperlink terlihat.

Mulai model deepseek menggunakan vllm dengan perintah berikut:




Jika Anda menemukan "Bfloat16 hanya didukung pada GPU dengan kemampuan komputasi minimal 8.0. GPU Tesla T4 Anda memiliki kemampuan komputasi 7.5. Anda dapat menggunakan float16 sebagai gantinya dengan secara eksplisit mengatur bendera 'dtype' di CLI, misalnya: --dtype=half." Peringatan, cukup tambahkan parameter sesuai dengan peringatan.

Pernyataan:

  • --tensor-parallel-size dan pengaturan jumlah GPU
  • --gpu-memory-utilization mengontrol persentase memori yang digunakan
  • --served-model-name Nama model yang digunakan dalam API
  • --disable-log-requests menonaktifkan permintaan pencatatan


Dokumentasi Instalasi GPU vLLM Linux:Login hyperlink terlihat.
Parameter Mesin:Login hyperlink terlihat.

Lihat status GPU seperti yang ditunjukkan di bawah ini:



Menggunakan tes Postman

Browser terbuka:http://ip:8000/
Dokumentasi Antarmuka:http://ip:8000/docs



Panggilan tukang pos, seperti yang ditunjukkan pada gambar berikut:




Pembandingan

Unduh kode pengujian dengan perintah berikut:


Perintah dijalankan sebagai berikut:


Hasil: Throughput: 2,45 permintaan/dtk, 1569,60 total token/dtk, 1255,68 token keluaran/dtk



(Akhir)




Mantan:Jaringan rumah dimulai dengan router GL-MT3000
Depan:Akun media mandiri webmaster
 Tuan tanah| Dipaparkan pada 2025-3-12 15:14:42 |
Menggunakan vllm atau sglang di Windows saat ini tidak didukung, dan jika Anda ingin menjalankannya di Windows, Anda dapat menggunakan WSL (Subsistem Windows untuk Linux) sebagai gantinya.
 Tuan tanah| Dipaparkan pada 2025-8-18 11:46:22 |
Kerangka inferensi lainnya: TensorRT, vLLM, LMDeploy dan MLC-LLM, sglang
Sanggahan:
Semua perangkat lunak, materi pemrograman, atau artikel yang diterbitkan oleh Code Farmer Network hanya untuk tujuan pembelajaran dan penelitian; Konten di atas tidak boleh digunakan untuk tujuan komersial atau ilegal, jika tidak, pengguna akan menanggung semua konsekuensi. Informasi di situs ini berasal dari Internet, dan sengketa hak cipta tidak ada hubungannya dengan situs ini. Anda harus sepenuhnya menghapus konten di atas dari komputer Anda dalam waktu 24 jam setelah pengunduhan. Jika Anda menyukai program ini, harap dukung perangkat lunak asli, pembelian pendaftaran, dan dapatkan layanan asli yang lebih baik. Jika ada pelanggaran, silakan hubungi kami melalui email.

Mail To:help@itsvse.com