【AI】(3) Tencent Cloud setzt DeepSeek-R1 mit HAI-Tutorial ein

Kleiner Abschaum · Veröffentlicht am 05.02.2025 21:14:04

Hyper Application Inventor (HAI) ist ein GPU-Anwendungsdienstprodukt für KI und wissenschaftliches Rechnen, das Plug-and-Play-Rechenleistung und gemeinsame Umgebungen bietet, um kleinen und mittleren Unternehmen und Entwicklern die schnelle Einführung von LLMs zu erleichtern.

Adresse:Der Hyperlink-Login ist sichtbar.

HAI vs. GPU-Server

Reduzieren Sie die Schwelle für die Nutzung von GPU-Cloud-Servern erheblich, optimieren Sie das Produkterlebnis aus mehreren Blickwinkeln und nutzen Sie es direkt aus der Verpackung, wie in der untenstehenden Abbildung gezeigt:

HAI-Rechenleistung kaufen

Gehe auf die Kaufseite, wähle das Basis-Image "Ubuntu 20.04" aus und konfiguriere die Umgebung:Ubuntu 20.04, Treiber 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Das Bild hat den Treiber bereits für uns installiert, und wir entscheiden uns, wie in der untenstehenden Abbildung gezeigt zu bezahlen, während wir unterwegs zahlen:

Videospeicher: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 Kerne
RAM: 40 GB

Nach einigen Minuten Warten wird die Instanz erfolgreich erstellt und die Akademische Beschleunigung aktiviert, wie in der folgenden Abbildung dargestellt:

Beim ersten Mal musst du dein Passwort zurücksetzen, und der Benutzername lautet:ubuntu。 Versuche, dich auf dem Server anzumelden und die NVIDIA-GPU-Treiberinformationen mit folgendem Befehl zu überprüfen:

Login ist sichtbar.

Wie unten gezeigt:

Ollama installieren

Offizielle Website von Olama:Der Hyperlink-Login ist sichtbar.

Melden Sie sich mit dem Putty-Tool auf dem Server an und beginnen Sie mit der Installation des Ollama-Tools mit folgendem Befehl:

Login ist sichtbar.

Die Installation ist abgeschlossen, und die Ausgabe ist wie folgt:

>>> Installation von Ollama auf /usr/local
>>> Linux amd64 Bundle herunterladen
######################################################################## 100.0%
>>> Olama-Nutzer erstellen...
>>> Olama-Benutzer zur Rendergruppe hinzufügen...
>>> Olama-Nutzer zur Videogruppe hinzufügen...
>>> Aktueller Nutzer zur Olama-Gruppe hinzufügen...
>>> Schaffung eines Olama-Systemd-Dienstes...
>>> Aktivieren und Starten des Olama-Dienstes...
Ich habe symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service erstellt.

Schau dir den Versionsbefehl an: ollama -v
Siehe das Modell, das gerade in den Speicher geladen ist: ollama ps

Erstellen Sie einen benutzerdefinierten Modell-Speicherordner mit folgendem Befehl:

Login ist sichtbar.

Ändern Sie die Standard-Listening-Adresse und den Modellspeicherpfad (Sie können den Standardport nicht ändern, sonst schlägt der Befehl fehl) und verwenden Sie folgende Befehle:

Login ist sichtbar.

Setzen Sie das Deepseek-r1-Modell ein.

Führe das deepseek-r1:8b-Modell mit folgendem Befehl aus:

Login ist sichtbar.

Wie unten gezeigt:

Testen Sie den Dialog wie unten gezeigt:

Die Firewall gibt den TCP-Port 11434 frei und ruft die HTTP-Schnittstelle auf, wie in der folgenden Abbildung dargestellt:

{
  "Models": [
{
   "name": "deepseek-r1:8b",
   "Modell": "Deepseek-r1:8b",
   "Größe": 6930032640,
   "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "Details": {
      "parent_model": "",
      "Format": "GGUF",
      "Familie": "Lama",
      "Familien": [
      "Lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referenz:
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.

Kleiner Abschaum · Veröffentlicht am 05.02.2025 21:22:49

Wenn das Modell für einen bestimmten Zeitraum keine Anfragen oder Eingaben erhält, beendet Ollama das Modell automatisch im Cloud-Center, um Ressourcen zu sparen.

Kleiner Abschaum · Veröffentlicht am 06.02.2025 09:03:57

Ollama Umgebungsvariablen-Konfigurationselement

Variable	Standardwert	Beschreibung + Wirkung + Szenario
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Der Hyperlink-Login ist sichtbar."	Konfiguriert den Host und das Schema für den Ollama-Server. Effekt: Bestimmt die URL, die zur Verbindung zum Ollama-Server verwendet wird. Szenario: Nützlich beim Bereitstellen von Ollama in einer verteilten Umgebung oder wenn man den Dienst auf einer bestimmten Netzwerkschnittstelle bereitstellen muss.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfigurierungen erlaubten Ursprünge für CORS. Effekt: Kontrolliert, welche Ursprünge Anfragen an den Ollama-Server stellen dürfen. Szenario: Entscheidend bei der Integration von Ollama mit Webanwendungen, um unbefugten Zugriff aus verschiedenen Domänen zu verhindern.
OLLAMA_MODELS	$HOME/.ollama/models	Legt den Pfad zum Models-Verzeichnis fest. Effekt: Bestimmt, wo Modelldateien gespeichert und geladen werden. Szenario: Nützlich zur Verwaltung des Festplattenspeichers auf verschiedenen Laufwerken oder zur Einrichtung gemeinsamer Modell-Repositories in Mehrbenutzerumgebungen.
OLLAMA_KEEP_ALIVE	5 Minuten	Legt fest, wie lange Modelle im Speicher geladen bleiben. Effekt: Die Dauermodelle bleiben nach der Nutzung im Speicher. Szenario: Längere Laufzeiten verbessern die Antwortzeiten bei häufigen Abfragen, erhöhen aber den Speicherverbrauch. Kürzere Laufzeiten schaffen Ressourcen frei, können aber die anfänglichen Reaktionszeiten erhöhen.
OLLAMA_DEBUG	false	Ermöglicht zusätzliche Debug-Informationen. Effekt: Erhöht die Länge bei Logging und Debugging. Szenario: Von unschätzbarem Wert, um Probleme zu beheben oder das Systemverhalten während Entwicklung oder Bereitstellung zu verstehen.
OLLAMA_FLASH_ATTENTION	false	Ermöglicht die experimentelle Flash-Attention-Funktion. Effekt: Aktiviert eine experimentelle Optimierung für Aufmerksamkeitsmechanismen. Szenario: Kann die Leistung auf kompatibler Hardware verbessern, kann aber Instabilität verursachen.
OLLAMA_NOHISTORY	false	Deaktiviert die Leselinien-Geschichte. Effekt: Verhindert, dass die Befehlshistorie gespeichert wird. Szenario: Nützlich in sicherheitssensiblen Umgebungen, in denen der Befehlsverlauf nicht gespeichert werden sollte.
OLLAMA_NOPRUNE	false	Es wird das Trimmen von Modellblobs beim Start deaktiviert. Effekt: Behält alle Modellblobs bei, was die Festplattennutzung potenziell erhöht. Szenario: Hilfreich, wenn du alle Modellversionen aus Kompatibilitäts- oder Rollback-Gründen pflegen musst.
OLLAMA_SCHED_SPREAD	false	Ermöglicht die Planung von Modellen über alle GPUs hinweg. Effekt: Ermöglicht die Nutzung mehrerer GPUs zur Modellinferenz. Szenario: Vorteilhaft in Hochleistungs-Computing-Umgebungen mit mehreren GPUs, um die Hardware-Auslastung zu maximieren.
OLLAMA_INTEL_GPU	false	Ermöglicht experimentelle Intel-GPU-Erkennung. Effekt: Ermöglicht die Nutzung von Intel-GPUs zur Modellinferenz. Szenario: Nützlich für Organisationen, die Intel-GPU-Hardware für KI-Workloads nutzen.
OLLAMA_LLM_LIBRARY	"" (Auto-Detektieren)	Stellt die LLM-Bibliothek so ein, dass sie verwendet wird. Effekt: Überschreibt die automatische Erkennung der LLM-Bibliothek. Szenario: Nützlich, wenn man eine bestimmte Bibliotheksversion oder Implementierung aus Kompatibilitäts- oder Performancegründen erzwingen muss.
OLLAMA_TMPDIR	System-Standard-Temp-Verzeichnis	Legt den Speicherort für temporäre Dateien fest. Effekt: Bestimmt, wo temporäre Dateien gespeichert werden. Szenario: Wichtig für die Verwaltung der I/O-Leistung oder wenn das temporäre Systemverzeichnis begrenzten Speicherplatz hat.
CUDA_VISIBLE_DEVICES	Alle verfügbar	Es werden festgelegt, welche NVIDIA-Geräte sichtbar sind. Effekt: Kontrolliert, welche NVIDIA-GPUs verwendet werden können. Szenario: Entscheidend für die Verwaltung der GPU-Zuweisung in Multi-User- oder Multi-Prozess-Umgebungen.
HIP_VISIBLE_DEVICES	Alle verfügbar	Setzt, welche AMD-Geräte sichtbar sind. Effekt: Bestimmt, welche AMD-GPUs verwendet werden können. Szenario: Ähnlich wie CUDA_VISIBLE_DEVICES, aber für AMD-Hardware.
OLLAMA_RUNNERS_DIR	Systemabhängig	Legt den Standort für die Läufer fest. Effekt: Bestimmt, wo sich Runner-Executables befinden. Szenario: Wichtig für benutzerdefinierte Deployments oder wenn Runner von der Hauptanwendung isoliert werden müssen.
OLLAMA_NUM_PARALLEL	0 (unbegrenzt)	Legt die Anzahl der parallelen Modellanfragen fest. Effekt: Kontrolliert die Nebenläufigkeit der Modellinferenz. Szenario: Entscheidend für das Management der Systemlast und die Sicherstellung einer Reaktionsfähigkeit in stark frequentierten Umgebungen.
OLLAMA_MAX_LOADED_MODELS	0 (unbegrenzt)	Legt die maximale Anzahl geladener Modelle fest. Effekt: Begrenzt die Anzahl der Modelle, die gleichzeitig geladen werden können. Szenario: Hilft bei der Verwaltung des Speicherverbrauchs in Umgebungen mit begrenzten Ressourcen oder vielen verschiedenen Modellen.
OLLAMA_MAX_QUEUE	512	Legt die maximale Anzahl der Warteschlangenanfragen fest. Effekt: Begrenzt die Größe der Anfrage-Warteschlange. Szenario: Verhindert Systemüberlastung während Verkehrsspitzen und gewährleistet eine rechtzeitige Bearbeitung von Anfragen.
OLLAMA_MAX_VRAM	0 (unbegrenzt)	Setzt eine maximale VRAM-Übersteuerung in Bytes. Effekt: Begrenzt die Menge an VRAM, die genutzt werden kann. Szenario: Nützlich in Shared GPU-Umgebungen, um zu verhindern, dass ein einzelner Prozess den GPU-Speicher monopolisiert.

Quelle:Der Hyperlink-Login ist sichtbar.

$ ollama helfen zu servieren
Starte Ollama

Usage:
  Olama-Aufschlag [Fahnen]

Aliases:
  Aufschlag, Start

Flags:
  -H, --Hilfe, Hilfe für den Dienst

Umweltvariablen:
   OLLAMA_DEBUG Zusätzliche Debug-Informationen anzeigen (z. B. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP-Adresse für den Olama-Server (Standard 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Die Dauer, in der Modelle im Speicher geladen bleiben (Standard "5m")
   OLLAMA_MAX_LOADED_MODELS Maximale Anzahl geladener Modelle pro GPU
   OLLAMA_MAX_QUEUE Maximale Anzahl der Warteschlangenanfragen
   OLLAMA_MODELS Der Pfad zum Models-Verzeichnis
   OLLAMA_NUM_PARALLEL Maximale Anzahl paralleler Anfragen
   OLLAMA_NOPRUNE Nicht beim Start Modellblobs beschneiden
   OLLAMA_ORIGINS Eine komma-getrennte Liste erlaubter Ursprünge
   OLLAMA_SCHED_SPREAD Planen Sie das Modell immer über alle GPUs hinweg
   OLLAMA_TMPDIR Speicherort für temporäre Dateien
   OLLAMA_FLASH_ATTENTION Aktivierte Flash-Aufmerksamkeit
   OLLAMA_LLM_LIBRARY Stelle die LLM-Bibliothek so ein, dass sie die automatische Erkennung umgeht
   OLLAMA_GPU_OVERHEAD Reserviere einen Teil VRAM pro GPU (Bytes)
   OLLAMA_LOAD_TIMEOUT Wie lange sollte man Modellladungen zum Stillstand lassen, bevor man aufgibt (Standard "5m")

Referenz:Der Hyperlink-Login ist sichtbar.

Kleiner Abschaum · Veröffentlicht am 06.02.2025 09:19:49

Ollama Kommando

Ollama-Liste: Zeigt eine Liste der Modelle an
Olama-Show: Zeigt Informationen über das Modell an
Ollama Pull: Pull-Modell
Ollama Push: Push-Modell
Ollama CP: Kopiere ein Modell
ollama rm: Lösche ein Modell
Ollama Run: Führe ein Modell aus

Kleiner Abschaum · Veröffentlicht am 06.02.2025 09:33:17

Modelloptimierung, Bearbeitung/etc/systemd/system/ollama.service.d/override.confKonfiguration, fügen Sie Folgendes hinzu:

Login ist sichtbar.

Die vollständige Konfiguration ist wie folgt:

Login ist sichtbar.

Kleiner Abschaum · Veröffentlicht am 06.02.2025 09:35:26

--wortreichDer Parameter wird verwendet, um die Inferenzgeschwindigkeit (Token / Sekunde) anzuzeigen. Zum Beispiel:

Login ist sichtbar.

>>> Hallo, wer sind Sie?
<think>

</think>

Hallo! Ich bin ein KI-Assistent, der unabhängig von DeepSeek in China entwickelt wurde, und ich freue mich, Ihnen zu helfen!

Gesamtdauer: 489,831897 ms
Ladedauer: 24,116423 ms
Prompt-Evaluierungsanzahl: 10 Token(s)
Dauer der Promptbewertung: 4 ms
Prompt-Evaluierungsrate: 2500,00 Token/s
Bewertungszahl: 36 Token
Evaluierungsdauer: 460 ms
Bewertungsrate: 78,26 Token/s
>>> ich ein kleiner Dreckskerl bin, wie heiße ich?
<think>
Na, heißt ich der kleine Dreckskerl? Lass mich genau darüber nachdenken. Ich erinnere mich, als ich ein Kind war, nannten mich meine Eltern "Kleiner", weil meine Familie dachte, ich hätte große Ohren, aber in Wirklichkeit war es das auch
Nicht der eigentliche Grund. Vielleicht liegt es daran, dass ich als Kind immer meinen Finger wie Müll in den Mund gesteckt habe und deshalb "kleiner Abschaum" genannt wurde.

Allerdings klingt der Name heute etwas seltsam und passt nicht ganz zum Namensstil der heutigen Gesellschaft. Ich sollte in Erwägung ziehen, sie mit einem Namen umzubenennen, der besser zu mir passt. Zuerst muss ich mich selbst verstehen
Deine Persönlichkeitsmerkmale und Interessen, damit du einen Namen wählen kannst, der sowohl bedeutungsvoll als auch einzigartig ist.

Ich helfe gerne anderen und bin gut im Zuhören und Kommunizieren, also wähle vielleicht einen Namen mit "Weisheit", "warm" oder "freundlich". Gleichzeitig möchte ich auch meine Persönlichkeit widerspiegeln, zum Beispiel
Wenn Sie Bücher, Musik oder Sport mögen, können Sie diese Elemente in Ihren Namen einbauen.

Außerdem muss ich sicherstellen, dass der neue Name nicht falsch erinnert oder missverstanden wird. Das bedeutet, dass der Name einzigartig und erkennbar sein muss, nicht zu komplex oder zu gewöhnlich. Ich kann
Beziehen Sie sich auf die Namen einiger bekannter Persönlichkeiten, um zu sehen, welche sowohl kulturelles Erbe als auch Moderne haben.

Außerdem muss ich überlegen, ob die Aussprache glatt ist, ob es eine positive Bedeutung gibt und wie sie in verschiedenen Kontexten ausgedrückt wird. Das bedeutet, dass bei der Namenswahl nicht nur gut klingt, sondern auch
Es muss Sinn und Wert dahinter geben.

Schließlich muss ich mit meiner Familie und meinen Freunden kommunizieren, um sicherzustellen, dass sie mit dem neuen Namen zufrieden sind und der Name ein Teil meines Lebens sein kann. Schließlich ist der Name nicht nur
Der Identifizierer ist Teil des Selbstausdrucks.

Kurz gesagt, Xiao Zhao ist nicht mein richtiger Name, und ich habe das Recht, einen Namen zu wählen, der besser zu mir passt. Es braucht Zeit und Nachdenken, aber durch sorgfältige Analyse deiner Persönlichkeit und Interessen
Neben der Bedeutung des Namens glaube ich, dass ich den passendsten Namen für mich finden werde.
</think>

Basierend auf dem oben genannten Denkprozess habe ich mich entschieden, mich "Weisheitsstern" zu nennen. Der Name spiegelt sowohl meine Einfallsreichtum als auch meine Wärme und Hoffnung wider und passt perfekt zu meiner persönlichen Sexualität
Charaktereigenschaften. Gleichzeitig symbolisiert der "Stern" Licht und unendliche Möglichkeiten und inspiriert mich, ständig Fortschritt und Wachstum zu verfolgen.

**Endgültiger Name: Weisheitsstern**

Dieser Name passt nicht nur zu meiner Persönlichkeit, sondern ist auch voller positiver Energie, die mich sehr stolz und erfüllt macht.

Gesamtdauer: 7,600299527s
Ladezeit: 24,37534 ms
Prompt-Evaluierungsanzahl: 59 Token(n)
Dauer der Promptbewertung: 10 ms
Promptbewertungsrate: 5900,00 Token/s
Bewertungszahl: 557 Token(s)
Evaluierungsdauer: 6,618 Sekunden
Auswertungsrate: 84,16 Token/s

Kleiner Abschaum · Veröffentlicht am 06.02.2025 10:22:02

Ollama-Modelle mit AMD-GPUs bereitstellen
Ollama-for-AMD:Der Hyperlink-Login ist sichtbar.

Referenz:Der Hyperlink-Login ist sichtbar.

Kleiner Abschaum · Veröffentlicht am 06.02.2025 13:26:17

Führe das Deepseek-r1:32b-Modell aus

root@VM-0-8-ubuntu:~# nvidia-smi
Do 6. Feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Treiber-Version: 525.105.17 CUDA-Version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU-Name Persistenz-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Lüftertemperatur-Perf Pwr:Usage/Cap|       Speichernutzung | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Auf | 000000000:00:08.0 Aus |                Off |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% Default |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Prozesse: |
|  GPU GI CI PID Typ Prozessname GPU Speicher |
|       ID-ID-Nutzung |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modell
Architektur qwen2
Parameter 32,8B
Kontextlänge 131072
Einbettungslänge 5120
Quantisierung Q4_K_M

  Parameter
stopp "<|Beginn des Satzes|>"
Stopp "<|Satzende|>"
stop "<|User|>"
stop "<|Assistent|>"

  Lizenz
MIT-Lizenz
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAME, ID, GRÖSSE, PROZESSOR BIS
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Kleiner Abschaum · Veröffentlicht am 08.02.2025 08:34:18

Wie man das Ullama-Modell-Pull-Problem löst
https://www.itsvse.com/thread-10939-1-1.html

Kleiner Abschaum · Veröffentlicht am 13.02.2025 09:25:04

Erleben Sie das DeepSeek R1 32b-Modell auf dem Jetson AGX Orin (32G):Der Hyperlink-Login ist sichtbar.
Jetson führt große Sprachmodelle aus:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud setzt DeepSeek-R1 mit HAI-Tutorial ein

Verwandte Beiträge