Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 1547|Antwort: 2

[KI] (9) Verwendung von vLLM-Enterprise-Level-Implementierung von DeepSeek-R1-Modellen

[Link kopieren]
Veröffentlicht am 06.03.2025, 11:23:03 | | | |
Anforderungen: Ich habe zuvor das deepseek-r1:32b-Modell mit Ollama eingesetzt, das sehr bequem und schnell ist und sich für eine persönliche Schnelleinsetzung eignet. Wenn es sich um eine Unternehmensproduktionsumgebung handelt, wie sollte sie implementiert werden? Im Allgemeinen werden vllm und sglang für die Bereitstellung verwendet, und dieser Artikel verwendet vLLM, um das DeepSeek-R1-Modell einzusetzen.

Ollama vs. vLLM

Die Unterschiede sind wie folgt:

KontrastmaßeOllamavLLM
KernpositionierungLeichte Lokalisierungswerkzeuge für einzelne Entwickler und kleine ExperimenteProduktionsebene-Inferenzrahmen, der sich auf Unternehmensszenarien mit hoher Nebenwirkung und niedriger Latenz konzentriert
HardwareanforderungenUnterstützt CPU und GPU, wenig Speicherbedarf (verwendet standardmäßig das Quantisierungsmodell)Man muss sich auf NVIDIA-GPUs verlassen, die einen hohen Speicherverbrauch haben
ModellunterstützungEingebaute vortrainierte Modellbibliothek (unterstützt 1700+ Modelle), automatischer Download quantitativer Versionen (hauptsächlich int4)Der manuelle Download der Originalmodelldatei (z. B. HuggingFace-Format) unterstützt eine größere Auswahl an Modellen
Schwierigkeit des EinsatzesEin-Knopf-Installation und direkter Einsatz ohne ProgrammiergrundlageEine Python-Umgebung und ein CUDA-Treiber sind erforderlich, ebenso technische Erfahrung als auch technische Erfahrung
LeistungsmerkmaleDie Single-Inferenz-Geschwindigkeit ist hoch, aber die Nebenlaufzeitverarbeitungsfähigkeit ist schwachHoher Durchsatz, Unterstützung für dynamische Batch-Verarbeitung und tausende gleichzeitige Anfragen
RessourcenmanagementStellen Sie den Ressourcenverbrauch flexibel an und geben Sie automatisch Videospeicher frei, wenn sie im Leerlauf sind.Die Auslastung des Videospeichers ist fest, und Ressourcen müssen reserviert werden, um mit Spitzenlasten umzugehen


Eine kurze Einführung in vLLMs

vLLM ist eine schnelle und einfach zu bedienende Bibliothek für LLM-Inferenz und -Dienste.

vLLM mit neuen Algorithmen definiert das neueste technologische Niveau der LLM-Dienste neu: . Im Vergleich zu HuggingFace Transformers bietet er bis zu 24-fach höhere Durchsatzrate ohne Änderungen an der Modellarchitektur. Durch die Halbierung der Hashrate und eine zehnfache Erhöhung des Durchsatzes verglich die Studie den Durchsatz von vLLM mit der beliebtesten LLM-Bibliothek, HuggingFace Transformers (HF), sowie der vorherigen HuggingFace Text Generation Inference (TGI) mit SOTA-Durchsatz. Außerdem teilte die Studie das experimentelle Setup in zwei Typen ein: LLaMA-7B mit NVIDIA A10G GPU als Hardware; Das andere ist LLaMA-13B mit NVIDIA A100 GPU (40GB) auf Hardware. Sie haben Ein- und Ausgabelängen aus dem ShareGPT-Datensatz gesampelt. Die Ergebnisse zeigten, dass der Durchsatz von vLLM 24-mal höher als HF und 3,5-mal höher als TGI war.

vLLM-Dokumentation:Der Hyperlink-Login ist sichtbar.
Quellcode-Adresse:Der Hyperlink-Login ist sichtbar.
Leistungstests:Der Hyperlink-Login ist sichtbar.



Du musst das Bild nicht verstehen, die Kuh ist erledigt!

Umweltvorbereitung

Ich habe Tencent Cloud Hochleistungsanwendungsdienste gekauft und sie wie folgt konfiguriert:

Ubuntu 20.04
Umgebungskonfiguration: Ubuntu 20.04, Treiber 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8
Rechenleistungstyp: Zwei-Karten-GPU-Basistyp - 2*16GB+ | 16+TFlops SP | CPU – 16 Kerne | RAM – 64 GB

Conda installieren

Erstelle eine Python-Umgebung mit Conda, füge das Skript direkt ein:


DeepSeek-R1 mit einem vLLM bereitstellen

Erstelle eine Python-Umgebung mit Conda mit folgendem Befehl:


Installieren Sie vllm und modelscope mit folgenden Befehlen:


Laden Sie das DeepSeek-R1-Modell mit modelscope mit folgendem Befehl herunter:


Referenz:Der Hyperlink-Login ist sichtbar.

Starte das Deepseek-Modell mit dem vllm mit folgendem Befehl:




Wenn Sie auf "Bfloat16 stoßen, wird nur auf GPUs mit einer Rechenleistung von mindestens 8.0 unterstützt. Ihre Tesla T4-GPU hat eine Rechenleistung von 7,5. Man kann stattdessen float16 verwenden, indem man explizit das 'dtype'-Flag in der CLI setzt, zum Beispiel: --dtype=half." Warnung, fügen Sie einfach die Parameter gemäß der Warnung hinzu.

Bemerkung:

  • --Tensor-Parallel-Size- und GPU-Count-Einstellungen
  • --gpu-speichernutzung steuert den Prozentsatz des verwendeten Speichers
  • --servd-model-name Der Modellname, der in der API verwendet wird
  • --deaktivieren-Log-Anfragen deaktivieren Logging-Anfragen


vLLM Linux GPU-Installationsdokumentation:Der Hyperlink-Login ist sichtbar.
Motorparameter:Der Hyperlink-Login ist sichtbar.

Sehen Sie sich den GPU-Status unten an:



Verwendung von Postman-Tests

Browser geöffnet:http://ip:8000/
Schnittstellendokumentation:http://ip:8000/docs



Ruf des Postbotes, wie im folgenden Bild gezeigt:




Benchmarking

Laden Sie den Testcode mit folgendem Befehl herunter:


Der Befehl wird wie folgt ausgeführt:


Ergebnis: Durchsatz: 2,45 Anfragen/s, insgesamt 1569,60 Tokens/s, 1255,68 Ausgabe-Tokens/s



(Ende)




Vorhergehend:Das Heimnetzwerk beginnt mit dem GL-MT3000-Router
Nächster:Webmasters Self-Media-Account
 Vermieter| Veröffentlicht am 12.03.2025, 15:14:42 |
Die Verwendung von vllm oder sglang unter Windows wird derzeit nicht unterstützt, und wenn du es unter Windows ausführen möchtest, kannst du stattdessen WSL (Windows Subsystem for Linux) verwenden.
 Vermieter| Veröffentlicht am 18.8.2025, 11:46:22 |
Weitere Inferenz-Frameworks: TensorRT, vLLM, LMDeploy und MLC-LLM, sglang
Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com