[KI] (9) Verwendung von vLLM-Enterprise-Level-Implementierung von DeepSeek-R1-Modellen

Kleiner Abschaum · Veröffentlicht am 06.03.2025 11:23:03

Anforderungen: Ich habe zuvor das deepseek-r1:32b-Modell mit Ollama eingesetzt, das sehr bequem und schnell ist und sich für eine persönliche Schnelleinsetzung eignet. Wenn es sich um eine Unternehmensproduktionsumgebung handelt, wie sollte sie implementiert werden? Im Allgemeinen werden vllm und sglang für die Bereitstellung verwendet, und dieser Artikel verwendet vLLM, um das DeepSeek-R1-Modell einzusetzen.

Ollama vs. vLLM

Die Unterschiede sind wie folgt:

Kontrastmaße	Ollama	vLLM
Kernpositionierung	Leichte Lokalisierungswerkzeuge für einzelne Entwickler und kleine Experimente	Produktionsebene-Inferenzrahmen, der sich auf Unternehmensszenarien mit hoher Nebenwirkung und niedriger Latenz konzentriert
Hardwareanforderungen	Unterstützt CPU und GPU, wenig Speicherbedarf (verwendet standardmäßig das Quantisierungsmodell)	Man muss sich auf NVIDIA-GPUs verlassen, die einen hohen Speicherverbrauch haben
Modellunterstützung	Eingebaute vortrainierte Modellbibliothek (unterstützt 1700+ Modelle), automatischer Download quantitativer Versionen (hauptsächlich int4)	Der manuelle Download der Originalmodelldatei (z. B. HuggingFace-Format) unterstützt eine größere Auswahl an Modellen
Schwierigkeit des Einsatzes	Ein-Knopf-Installation und direkter Einsatz ohne Programmiergrundlage	Eine Python-Umgebung und ein CUDA-Treiber sind erforderlich, ebenso technische Erfahrung als auch technische Erfahrung
Leistungsmerkmale	Die Single-Inferenz-Geschwindigkeit ist hoch, aber die Nebenlaufzeitverarbeitungsfähigkeit ist schwach	Hoher Durchsatz, Unterstützung für dynamische Batch-Verarbeitung und tausende gleichzeitige Anfragen
Ressourcenmanagement	Stellen Sie den Ressourcenverbrauch flexibel an und geben Sie automatisch Videospeicher frei, wenn sie im Leerlauf sind.	Die Auslastung des Videospeichers ist fest, und Ressourcen müssen reserviert werden, um mit Spitzenlasten umzugehen

Eine kurze Einführung in vLLMs

vLLM ist eine schnelle und einfach zu bedienende Bibliothek für LLM-Inferenz und -Dienste.

vLLM mit neuen Algorithmen definiert das neueste technologische Niveau der LLM-Dienste neu: . Im Vergleich zu HuggingFace Transformers bietet er bis zu 24-fach höhere Durchsatzrate ohne Änderungen an der Modellarchitektur. Durch die Halbierung der Hashrate und eine zehnfache Erhöhung des Durchsatzes verglich die Studie den Durchsatz von vLLM mit der beliebtesten LLM-Bibliothek, HuggingFace Transformers (HF), sowie der vorherigen HuggingFace Text Generation Inference (TGI) mit SOTA-Durchsatz. Außerdem teilte die Studie das experimentelle Setup in zwei Typen ein: LLaMA-7B mit NVIDIA A10G GPU als Hardware; Das andere ist LLaMA-13B mit NVIDIA A100 GPU (40GB) auf Hardware. Sie haben Ein- und Ausgabelängen aus dem ShareGPT-Datensatz gesampelt. Die Ergebnisse zeigten, dass der Durchsatz von vLLM 24-mal höher als HF und 3,5-mal höher als TGI war.

vLLM-Dokumentation:Der Hyperlink-Login ist sichtbar.
Quellcode-Adresse:Der Hyperlink-Login ist sichtbar.
Leistungstests:Der Hyperlink-Login ist sichtbar.

Du musst das Bild nicht verstehen, die Kuh ist erledigt!

Umweltvorbereitung

Ich habe Tencent Cloud Hochleistungsanwendungsdienste gekauft und sie wie folgt konfiguriert:

Ubuntu 20.04
Umgebungskonfiguration: Ubuntu 20.04, Treiber 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Rechenleistungstyp: Zwei-Karten-GPU-Basistyp - 2*16GB+ | 16+TFlops SP | CPU – 16 Kerne | RAM – 64 GB

Conda installieren

Erstelle eine Python-Umgebung mit Conda, füge das Skript direkt ein:

Login ist sichtbar.

DeepSeek-R1 mit einem vLLM bereitstellen

Erstelle eine Python-Umgebung mit Conda mit folgendem Befehl:

Login ist sichtbar.

Installieren Sie vllm und modelscope mit folgenden Befehlen:

Login ist sichtbar.

Laden Sie das DeepSeek-R1-Modell mit modelscope mit folgendem Befehl herunter:

Login ist sichtbar.

Referenz:Der Hyperlink-Login ist sichtbar.

Starte das Deepseek-Modell mit dem vllm mit folgendem Befehl:

Login ist sichtbar.

Wenn Sie auf "Bfloat16 stoßen, wird nur auf GPUs mit einer Rechenleistung von mindestens 8.0 unterstützt. Ihre Tesla T4-GPU hat eine Rechenleistung von 7,5. Man kann stattdessen float16 verwenden, indem man explizit das 'dtype'-Flag in der CLI setzt, zum Beispiel: --dtype=half." Warnung, fügen Sie einfach die Parameter gemäß der Warnung hinzu.

Bemerkung:

--Tensor-Parallel-Size- und GPU-Count-Einstellungen
--gpu-speichernutzung steuert den Prozentsatz des verwendeten Speichers
--servd-model-name Der Modellname, der in der API verwendet wird
--deaktivieren-Log-Anfragen deaktivieren Logging-Anfragen

vLLM Linux GPU-Installationsdokumentation:Der Hyperlink-Login ist sichtbar.
Motorparameter:Der Hyperlink-Login ist sichtbar.

Sehen Sie sich den GPU-Status unten an:

Verwendung von Postman-Tests

Browser geöffnet:http://ip:8000/
Schnittstellendokumentation:http://ip:8000/docs

Ruf des Postbotes, wie im folgenden Bild gezeigt:

Login ist sichtbar.

Benchmarking

Laden Sie den Testcode mit folgendem Befehl herunter:

Login ist sichtbar.

Der Befehl wird wie folgt ausgeführt:

Login ist sichtbar.

Ergebnis: Durchsatz: 2,45 Anfragen/s, insgesamt 1569,60 Tokens/s, 1255,68 Ausgabe-Tokens/s

(Ende)

Kleiner Abschaum · Veröffentlicht am 12.03.2025 15:14:42

Die Verwendung von vllm oder sglang unter Windows wird derzeit nicht unterstützt, und wenn du es unter Windows ausführen möchtest, kannst du stattdessen WSL (Windows Subsystem for Linux) verwenden.

Kleiner Abschaum · Veröffentlicht am 18.08.2025 11:46:22

Weitere Inferenz-Frameworks: TensorRT, vLLM, LMDeploy und MLC-LLM, sglang

[KI] (9) Verwendung von vLLM-Enterprise-Level-Implementierung von DeepSeek-R1-Modellen

Verwandte Beiträge

Betrachtete Abschnitte