|
|
Veröffentlicht am 06.03.2025, 11:23:03
|
|
|
|

Anforderungen: Ich habe zuvor das deepseek-r1:32b-Modell mit Ollama eingesetzt, das sehr bequem und schnell ist und sich für eine persönliche Schnelleinsetzung eignet. Wenn es sich um eine Unternehmensproduktionsumgebung handelt, wie sollte sie implementiert werden? Im Allgemeinen werden vllm und sglang für die Bereitstellung verwendet, und dieser Artikel verwendet vLLM, um das DeepSeek-R1-Modell einzusetzen.
Ollama vs. vLLM
Die Unterschiede sind wie folgt:
| Kontrastmaße | Ollama | vLLM | | Kernpositionierung | Leichte Lokalisierungswerkzeuge für einzelne Entwickler und kleine Experimente | Produktionsebene-Inferenzrahmen, der sich auf Unternehmensszenarien mit hoher Nebenwirkung und niedriger Latenz konzentriert | | Hardwareanforderungen | Unterstützt CPU und GPU, wenig Speicherbedarf (verwendet standardmäßig das Quantisierungsmodell) | Man muss sich auf NVIDIA-GPUs verlassen, die einen hohen Speicherverbrauch haben | | Modellunterstützung | Eingebaute vortrainierte Modellbibliothek (unterstützt 1700+ Modelle), automatischer Download quantitativer Versionen (hauptsächlich int4) | Der manuelle Download der Originalmodelldatei (z. B. HuggingFace-Format) unterstützt eine größere Auswahl an Modellen | | Schwierigkeit des Einsatzes | Ein-Knopf-Installation und direkter Einsatz ohne Programmiergrundlage | Eine Python-Umgebung und ein CUDA-Treiber sind erforderlich, ebenso technische Erfahrung als auch technische Erfahrung | | Leistungsmerkmale | Die Single-Inferenz-Geschwindigkeit ist hoch, aber die Nebenlaufzeitverarbeitungsfähigkeit ist schwach | Hoher Durchsatz, Unterstützung für dynamische Batch-Verarbeitung und tausende gleichzeitige Anfragen | | Ressourcenmanagement | Stellen Sie den Ressourcenverbrauch flexibel an und geben Sie automatisch Videospeicher frei, wenn sie im Leerlauf sind. | Die Auslastung des Videospeichers ist fest, und Ressourcen müssen reserviert werden, um mit Spitzenlasten umzugehen |
Eine kurze Einführung in vLLMs
vLLM ist eine schnelle und einfach zu bedienende Bibliothek für LLM-Inferenz und -Dienste.
vLLM mit neuen Algorithmen definiert das neueste technologische Niveau der LLM-Dienste neu: . Im Vergleich zu HuggingFace Transformers bietet er bis zu 24-fach höhere Durchsatzrate ohne Änderungen an der Modellarchitektur. Durch die Halbierung der Hashrate und eine zehnfache Erhöhung des Durchsatzes verglich die Studie den Durchsatz von vLLM mit der beliebtesten LLM-Bibliothek, HuggingFace Transformers (HF), sowie der vorherigen HuggingFace Text Generation Inference (TGI) mit SOTA-Durchsatz. Außerdem teilte die Studie das experimentelle Setup in zwei Typen ein: LLaMA-7B mit NVIDIA A10G GPU als Hardware; Das andere ist LLaMA-13B mit NVIDIA A100 GPU (40GB) auf Hardware. Sie haben Ein- und Ausgabelängen aus dem ShareGPT-Datensatz gesampelt. Die Ergebnisse zeigten, dass der Durchsatz von vLLM 24-mal höher als HF und 3,5-mal höher als TGI war.
vLLM-Dokumentation:Der Hyperlink-Login ist sichtbar. Quellcode-Adresse:Der Hyperlink-Login ist sichtbar. Leistungstests:Der Hyperlink-Login ist sichtbar.
Du musst das Bild nicht verstehen, die Kuh ist erledigt!
Umweltvorbereitung
Ich habe Tencent Cloud Hochleistungsanwendungsdienste gekauft und sie wie folgt konfiguriert:
Ubuntu 20.04 Umgebungskonfiguration: Ubuntu 20.04, Treiber 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8 Rechenleistungstyp: Zwei-Karten-GPU-Basistyp - 2*16GB+ | 16+TFlops SP | CPU – 16 Kerne | RAM – 64 GB
Conda installieren
Erstelle eine Python-Umgebung mit Conda, füge das Skript direkt ein:
DeepSeek-R1 mit einem vLLM bereitstellen
Erstelle eine Python-Umgebung mit Conda mit folgendem Befehl:
Installieren Sie vllm und modelscope mit folgenden Befehlen:
Laden Sie das DeepSeek-R1-Modell mit modelscope mit folgendem Befehl herunter:
Referenz:Der Hyperlink-Login ist sichtbar.
Starte das Deepseek-Modell mit dem vllm mit folgendem Befehl:
Wenn Sie auf "Bfloat16 stoßen, wird nur auf GPUs mit einer Rechenleistung von mindestens 8.0 unterstützt. Ihre Tesla T4-GPU hat eine Rechenleistung von 7,5. Man kann stattdessen float16 verwenden, indem man explizit das 'dtype'-Flag in der CLI setzt, zum Beispiel: --dtype=half." Warnung, fügen Sie einfach die Parameter gemäß der Warnung hinzu.
Bemerkung:
- --Tensor-Parallel-Size- und GPU-Count-Einstellungen
- --gpu-speichernutzung steuert den Prozentsatz des verwendeten Speichers
- --servd-model-name Der Modellname, der in der API verwendet wird
- --deaktivieren-Log-Anfragen deaktivieren Logging-Anfragen
vLLM Linux GPU-Installationsdokumentation:Der Hyperlink-Login ist sichtbar. Motorparameter:Der Hyperlink-Login ist sichtbar.
Sehen Sie sich den GPU-Status unten an:
Verwendung von Postman-Tests
Browser geöffnet:http://ip:8000/ Schnittstellendokumentation:http://ip:8000/docs
Ruf des Postbotes, wie im folgenden Bild gezeigt:
Benchmarking
Laden Sie den Testcode mit folgendem Befehl herunter:
Der Befehl wird wie folgt ausgeführt:
Ergebnis: Durchsatz: 2,45 Anfragen/s, insgesamt 1569,60 Tokens/s, 1255,68 Ausgabe-Tokens/s
(Ende) |
Vorhergehend:Das Heimnetzwerk beginnt mit dem GL-MT3000-RouterNächster:Webmasters Self-Media-Account
|