Dieser Artikel ist ein Spiegelartikel der maschinellen Übersetzung, bitte klicken Sie hier, um zum Originalartikel zu springen.

Ansehen: 2394|Antwort: 10

【AI】(3) Tencent Cloud setzt DeepSeek-R1 mit HAI-Tutorial ein

[Link kopieren]
Veröffentlicht am 5.2.2025, 21:14:04 | | | |
Hyper Application Inventor (HAI) ist ein GPU-Anwendungsdienstprodukt für KI und wissenschaftliches Rechnen, das Plug-and-Play-Rechenleistung und gemeinsame Umgebungen bietet, um kleinen und mittleren Unternehmen und Entwicklern die schnelle Einführung von LLMs zu erleichtern.

Adresse:Der Hyperlink-Login ist sichtbar.

HAI vs. GPU-Server

Reduzieren Sie die Schwelle für die Nutzung von GPU-Cloud-Servern erheblich, optimieren Sie das Produkterlebnis aus mehreren Blickwinkeln und nutzen Sie es direkt aus der Verpackung, wie in der untenstehenden Abbildung gezeigt:



HAI-Rechenleistung kaufen

Gehe auf die Kaufseite, wähle das Basis-Image "Ubuntu 20.04" aus und konfiguriere die Umgebung:Ubuntu 20.04, Treiber 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Das Bild hat den Treiber bereits für uns installiert, und wir entscheiden uns, wie in der untenstehenden Abbildung gezeigt zu bezahlen, während wir unterwegs zahlen:



Videospeicher: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 Kerne
RAM: 40 GB

Nach einigen Minuten Warten wird die Instanz erfolgreich erstellt und die Akademische Beschleunigung aktiviert, wie in der folgenden Abbildung dargestellt:



Beim ersten Mal musst du dein Passwort zurücksetzen, und der Benutzername lautet:ubuntu。 Versuche, dich auf dem Server anzumelden und die NVIDIA-GPU-Treiberinformationen mit folgendem Befehl zu überprüfen:


Wie unten gezeigt:


Ollama installieren

Offizielle Website von Olama:Der Hyperlink-Login ist sichtbar.

Melden Sie sich mit dem Putty-Tool auf dem Server an und beginnen Sie mit der Installation des Ollama-Tools mit folgendem Befehl:


Die Installation ist abgeschlossen, und die Ausgabe ist wie folgt:
>>> Installation von Ollama auf /usr/local
>>> Linux amd64 Bundle herunterladen
######################################################################## 100.0%
>>> Olama-Nutzer erstellen...
>>> Olama-Benutzer zur Rendergruppe hinzufügen...
>>> Olama-Nutzer zur Videogruppe hinzufügen...
>>> Aktueller Nutzer zur Olama-Gruppe hinzufügen...
>>> Schaffung eines Olama-Systemd-Dienstes...
>>> Aktivieren und Starten des Olama-Dienstes...
Ich habe symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service erstellt.

Schau dir den Versionsbefehl an: ollama -v
Siehe das Modell, das gerade in den Speicher geladen ist: ollama ps

Erstellen Sie einen benutzerdefinierten Modell-Speicherordner mit folgendem Befehl:

Ändern Sie die Standard-Listening-Adresse und den Modellspeicherpfad (Sie können den Standardport nicht ändern, sonst schlägt der Befehl fehl) und verwenden Sie folgende Befehle:


Setzen Sie das Deepseek-r1-Modell ein.

Führe das deepseek-r1:8b-Modell mit folgendem Befehl aus:


Wie unten gezeigt:



Testen Sie den Dialog wie unten gezeigt:



Die Firewall gibt den TCP-Port 11434 frei und ruft die HTTP-Schnittstelle auf, wie in der folgenden Abbildung dargestellt:



{
  "Models": [
    {
      "name": "deepseek-r1:8b",
      "Modell": "Deepseek-r1:8b",
      "Größe": 6930032640,
      "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "Details": {
        "parent_model": "",
        "Format": "GGUF",
        "Familie": "Lama",
        "Familien": [
          "Lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referenz:
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.
Der Hyperlink-Login ist sichtbar.




Vorhergehend:[KI] (2) Der Unterschied zwischen DeepSeek-V3- und R1-Versionen
Nächster:[KI] (4) Open WebUI verwenden, um das DeepSeek-R1-Modell aufzurufen
 Vermieter| Veröffentlicht am 5.2.2025, 21:22:49 |
Wenn das Modell für einen bestimmten Zeitraum keine Anfragen oder Eingaben erhält, beendet Ollama das Modell automatisch im Cloud-Center, um Ressourcen zu sparen.
 Vermieter| Veröffentlicht am 06.2.2025 09:03:57 |
Ollama Umgebungsvariablen-Konfigurationselement

VariableStandardwertBeschreibung + Wirkung + Szenario
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Der Hyperlink-Login ist sichtbar."Konfiguriert den Host und das Schema für den Ollama-Server. Effekt: Bestimmt die URL, die zur Verbindung zum Ollama-Server verwendet wird. Szenario: Nützlich beim Bereitstellen von Ollama in einer verteilten Umgebung oder wenn man den Dienst auf einer bestimmten Netzwerkschnittstelle bereitstellen muss.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfigurierungen erlaubten Ursprünge für CORS. Effekt: Kontrolliert, welche Ursprünge Anfragen an den Ollama-Server stellen dürfen. Szenario: Entscheidend bei der Integration von Ollama mit Webanwendungen, um unbefugten Zugriff aus verschiedenen Domänen zu verhindern.
OLLAMA_MODELS$HOME/.ollama/modelsLegt den Pfad zum Models-Verzeichnis fest. Effekt: Bestimmt, wo Modelldateien gespeichert und geladen werden. Szenario: Nützlich zur Verwaltung des Festplattenspeichers auf verschiedenen Laufwerken oder zur Einrichtung gemeinsamer Modell-Repositories in Mehrbenutzerumgebungen.
OLLAMA_KEEP_ALIVE5 MinutenLegt fest, wie lange Modelle im Speicher geladen bleiben. Effekt: Die Dauermodelle bleiben nach der Nutzung im Speicher. Szenario: Längere Laufzeiten verbessern die Antwortzeiten bei häufigen Abfragen, erhöhen aber den Speicherverbrauch. Kürzere Laufzeiten schaffen Ressourcen frei, können aber die anfänglichen Reaktionszeiten erhöhen.
OLLAMA_DEBUGfalseErmöglicht zusätzliche Debug-Informationen. Effekt: Erhöht die Länge bei Logging und Debugging. Szenario: Von unschätzbarem Wert, um Probleme zu beheben oder das Systemverhalten während Entwicklung oder Bereitstellung zu verstehen.
OLLAMA_FLASH_ATTENTIONfalseErmöglicht die experimentelle Flash-Attention-Funktion. Effekt: Aktiviert eine experimentelle Optimierung für Aufmerksamkeitsmechanismen. Szenario: Kann die Leistung auf kompatibler Hardware verbessern, kann aber Instabilität verursachen.
OLLAMA_NOHISTORYfalseDeaktiviert die Leselinien-Geschichte. Effekt: Verhindert, dass die Befehlshistorie gespeichert wird. Szenario: Nützlich in sicherheitssensiblen Umgebungen, in denen der Befehlsverlauf nicht gespeichert werden sollte.
OLLAMA_NOPRUNEfalseEs wird das Trimmen von Modellblobs beim Start deaktiviert. Effekt: Behält alle Modellblobs bei, was die Festplattennutzung potenziell erhöht. Szenario: Hilfreich, wenn du alle Modellversionen aus Kompatibilitäts- oder Rollback-Gründen pflegen musst.
OLLAMA_SCHED_SPREADfalseErmöglicht die Planung von Modellen über alle GPUs hinweg. Effekt: Ermöglicht die Nutzung mehrerer GPUs zur Modellinferenz. Szenario: Vorteilhaft in Hochleistungs-Computing-Umgebungen mit mehreren GPUs, um die Hardware-Auslastung zu maximieren.
OLLAMA_INTEL_GPUfalseErmöglicht experimentelle Intel-GPU-Erkennung. Effekt: Ermöglicht die Nutzung von Intel-GPUs zur Modellinferenz. Szenario: Nützlich für Organisationen, die Intel-GPU-Hardware für KI-Workloads nutzen.
OLLAMA_LLM_LIBRARY"" (Auto-Detektieren)Stellt die LLM-Bibliothek so ein, dass sie verwendet wird. Effekt: Überschreibt die automatische Erkennung der LLM-Bibliothek. Szenario: Nützlich, wenn man eine bestimmte Bibliotheksversion oder Implementierung aus Kompatibilitäts- oder Performancegründen erzwingen muss.
OLLAMA_TMPDIRSystem-Standard-Temp-VerzeichnisLegt den Speicherort für temporäre Dateien fest. Effekt: Bestimmt, wo temporäre Dateien gespeichert werden. Szenario: Wichtig für die Verwaltung der I/O-Leistung oder wenn das temporäre Systemverzeichnis begrenzten Speicherplatz hat.
CUDA_VISIBLE_DEVICESAlle verfügbarEs werden festgelegt, welche NVIDIA-Geräte sichtbar sind. Effekt: Kontrolliert, welche NVIDIA-GPUs verwendet werden können. Szenario: Entscheidend für die Verwaltung der GPU-Zuweisung in Multi-User- oder Multi-Prozess-Umgebungen.
HIP_VISIBLE_DEVICESAlle verfügbarSetzt, welche AMD-Geräte sichtbar sind. Effekt: Bestimmt, welche AMD-GPUs verwendet werden können. Szenario: Ähnlich wie CUDA_VISIBLE_DEVICES, aber für AMD-Hardware.
OLLAMA_RUNNERS_DIRSystemabhängigLegt den Standort für die Läufer fest. Effekt: Bestimmt, wo sich Runner-Executables befinden. Szenario: Wichtig für benutzerdefinierte Deployments oder wenn Runner von der Hauptanwendung isoliert werden müssen.
OLLAMA_NUM_PARALLEL0 (unbegrenzt)Legt die Anzahl der parallelen Modellanfragen fest. Effekt: Kontrolliert die Nebenläufigkeit der Modellinferenz. Szenario: Entscheidend für das Management der Systemlast und die Sicherstellung einer Reaktionsfähigkeit in stark frequentierten Umgebungen.
OLLAMA_MAX_LOADED_MODELS0 (unbegrenzt)Legt die maximale Anzahl geladener Modelle fest. Effekt: Begrenzt die Anzahl der Modelle, die gleichzeitig geladen werden können. Szenario: Hilft bei der Verwaltung des Speicherverbrauchs in Umgebungen mit begrenzten Ressourcen oder vielen verschiedenen Modellen.
OLLAMA_MAX_QUEUE512Legt die maximale Anzahl der Warteschlangenanfragen fest. Effekt: Begrenzt die Größe der Anfrage-Warteschlange. Szenario: Verhindert Systemüberlastung während Verkehrsspitzen und gewährleistet eine rechtzeitige Bearbeitung von Anfragen.
OLLAMA_MAX_VRAM0 (unbegrenzt)Setzt eine maximale VRAM-Übersteuerung in Bytes. Effekt: Begrenzt die Menge an VRAM, die genutzt werden kann. Szenario: Nützlich in Shared GPU-Umgebungen, um zu verhindern, dass ein einzelner Prozess den GPU-Speicher monopolisiert.


Quelle:Der Hyperlink-Login ist sichtbar.

$ ollama helfen zu servieren
Starte Ollama

Usage:
  Olama-Aufschlag [Fahnen]

Aliases:
  Aufschlag, Start

Flags:
  -H, --Hilfe, Hilfe für den Dienst

Umweltvariablen:
      OLLAMA_DEBUG Zusätzliche Debug-Informationen anzeigen (z. B. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-Adresse für den Olama-Server (Standard 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Die Dauer, in der Modelle im Speicher geladen bleiben (Standard "5m")
      OLLAMA_MAX_LOADED_MODELS Maximale Anzahl geladener Modelle pro GPU
      OLLAMA_MAX_QUEUE Maximale Anzahl der Warteschlangenanfragen
      OLLAMA_MODELS Der Pfad zum Models-Verzeichnis
      OLLAMA_NUM_PARALLEL Maximale Anzahl paralleler Anfragen
      OLLAMA_NOPRUNE Nicht beim Start Modellblobs beschneiden
      OLLAMA_ORIGINS Eine komma-getrennte Liste erlaubter Ursprünge
      OLLAMA_SCHED_SPREAD Planen Sie das Modell immer über alle GPUs hinweg
      OLLAMA_TMPDIR Speicherort für temporäre Dateien
      OLLAMA_FLASH_ATTENTION Aktivierte Flash-Aufmerksamkeit
      OLLAMA_LLM_LIBRARY Stelle die LLM-Bibliothek so ein, dass sie die automatische Erkennung umgeht
      OLLAMA_GPU_OVERHEAD Reserviere einen Teil VRAM pro GPU (Bytes)
      OLLAMA_LOAD_TIMEOUT Wie lange sollte man Modellladungen zum Stillstand lassen, bevor man aufgibt (Standard "5m")


Referenz:Der Hyperlink-Login ist sichtbar.
 Vermieter| Veröffentlicht am 06.2.2025, 09:19:49 |
Ollama Kommando

Ollama-Liste: Zeigt eine Liste der Modelle an
Olama-Show: Zeigt Informationen über das Modell an
Ollama Pull: Pull-Modell
Ollama Push: Push-Modell
Ollama CP: Kopiere ein Modell
ollama rm: Lösche ein Modell
Ollama Run: Führe ein Modell aus
 Vermieter| Veröffentlicht am 02.2.2025, 09:33:17 |
Modelloptimierung, Bearbeitung/etc/systemd/system/ollama.service.d/override.confKonfiguration, fügen Sie Folgendes hinzu:


Die vollständige Konfiguration ist wie folgt:



 Vermieter| Veröffentlicht am 06.2.2025, 09:35:26 |
--wortreichDer Parameter wird verwendet, um die Inferenzgeschwindigkeit (Token / Sekunde) anzuzeigen. Zum Beispiel:

>>> Hallo, wer sind Sie?
<think>

</think>

Hallo! Ich bin ein KI-Assistent, der unabhängig von DeepSeek in China entwickelt wurde, und ich freue mich, Ihnen zu helfen!

Gesamtdauer: 489,831897 ms
Ladedauer: 24,116423 ms
Prompt-Evaluierungsanzahl: 10 Token(s)
Dauer der Promptbewertung: 4 ms
Prompt-Evaluierungsrate: 2500,00 Token/s
Bewertungszahl: 36 Token
Evaluierungsdauer: 460 ms
Bewertungsrate: 78,26 Token/s
>>> ich ein kleiner Dreckskerl bin, wie heiße ich?
<think>
Na, heißt ich der kleine Dreckskerl? Lass mich genau darüber nachdenken. Ich erinnere mich, als ich ein Kind war, nannten mich meine Eltern "Kleiner", weil meine Familie dachte, ich hätte große Ohren, aber in Wirklichkeit war es das auch
Nicht der eigentliche Grund. Vielleicht liegt es daran, dass ich als Kind immer meinen Finger wie Müll in den Mund gesteckt habe und deshalb "kleiner Abschaum" genannt wurde.

Allerdings klingt der Name heute etwas seltsam und passt nicht ganz zum Namensstil der heutigen Gesellschaft. Ich sollte in Erwägung ziehen, sie mit einem Namen umzubenennen, der besser zu mir passt. Zuerst muss ich mich selbst verstehen
Deine Persönlichkeitsmerkmale und Interessen, damit du einen Namen wählen kannst, der sowohl bedeutungsvoll als auch einzigartig ist.

Ich helfe gerne anderen und bin gut im Zuhören und Kommunizieren, also wähle vielleicht einen Namen mit "Weisheit", "warm" oder "freundlich". Gleichzeitig möchte ich auch meine Persönlichkeit widerspiegeln, zum Beispiel
Wenn Sie Bücher, Musik oder Sport mögen, können Sie diese Elemente in Ihren Namen einbauen.

Außerdem muss ich sicherstellen, dass der neue Name nicht falsch erinnert oder missverstanden wird. Das bedeutet, dass der Name einzigartig und erkennbar sein muss, nicht zu komplex oder zu gewöhnlich. Ich kann
Beziehen Sie sich auf die Namen einiger bekannter Persönlichkeiten, um zu sehen, welche sowohl kulturelles Erbe als auch Moderne haben.

Außerdem muss ich überlegen, ob die Aussprache glatt ist, ob es eine positive Bedeutung gibt und wie sie in verschiedenen Kontexten ausgedrückt wird. Das bedeutet, dass bei der Namenswahl nicht nur gut klingt, sondern auch
Es muss Sinn und Wert dahinter geben.

Schließlich muss ich mit meiner Familie und meinen Freunden kommunizieren, um sicherzustellen, dass sie mit dem neuen Namen zufrieden sind und der Name ein Teil meines Lebens sein kann. Schließlich ist der Name nicht nur
Der Identifizierer ist Teil des Selbstausdrucks.

Kurz gesagt, Xiao Zhao ist nicht mein richtiger Name, und ich habe das Recht, einen Namen zu wählen, der besser zu mir passt. Es braucht Zeit und Nachdenken, aber durch sorgfältige Analyse deiner Persönlichkeit und Interessen
Neben der Bedeutung des Namens glaube ich, dass ich den passendsten Namen für mich finden werde.
</think>

Basierend auf dem oben genannten Denkprozess habe ich mich entschieden, mich "Weisheitsstern" zu nennen. Der Name spiegelt sowohl meine Einfallsreichtum als auch meine Wärme und Hoffnung wider und passt perfekt zu meiner persönlichen Sexualität
Charaktereigenschaften. Gleichzeitig symbolisiert der "Stern" Licht und unendliche Möglichkeiten und inspiriert mich, ständig Fortschritt und Wachstum zu verfolgen.

**Endgültiger Name: Weisheitsstern**

Dieser Name passt nicht nur zu meiner Persönlichkeit, sondern ist auch voller positiver Energie, die mich sehr stolz und erfüllt macht.

Gesamtdauer: 7,600299527s
Ladezeit: 24,37534 ms
Prompt-Evaluierungsanzahl: 59 Token(n)
Dauer der Promptbewertung: 10 ms
Promptbewertungsrate: 5900,00 Token/s
Bewertungszahl: 557 Token(s)
Evaluierungsdauer: 6,618 Sekunden
Auswertungsrate: 84,16 Token/s

 Vermieter| Veröffentlicht am 06.02.2025, 10:22:02 |
Ollama-Modelle mit AMD-GPUs bereitstellen
Ollama-for-AMD:Der Hyperlink-Login ist sichtbar.

Referenz:Der Hyperlink-Login ist sichtbar.
 Vermieter| Veröffentlicht am 06.02.2025, 13:26:17 |
Führe das Deepseek-r1:32b-Modell aus




root@VM-0-8-ubuntu:~# nvidia-smi
Do 6. Feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Treiber-Version: 525.105.17 CUDA-Version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU-Name Persistenz-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Lüftertemperatur-Perf Pwr:Usage/Cap|         Speichernutzung | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Auf | 000000000:00:08.0 Aus |                  Off |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Prozesse: |
|  GPU GI CI PID Typ Prozessname GPU Speicher |
|        ID-ID-Nutzung |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modell
    Architektur qwen2
    Parameter 32,8B
    Kontextlänge 131072
    Einbettungslänge 5120
    Quantisierung Q4_K_M

  Parameter
    stopp "<|Beginn des Satzes|>"
    Stopp "<|Satzende|>"
    stop "<|User|>"
    stop "<|Assistent|>"

  Lizenz
    MIT-Lizenz
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAME, ID, GRÖSSE, PROZESSOR BIS
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Vermieter| Veröffentlicht am 08.2.2025 08:34:18 |
Wie man das Ullama-Modell-Pull-Problem löst
https://www.itsvse.com/thread-10939-1-1.html
 Vermieter| Veröffentlicht am 13.2.2025 09:25:04 |
Erleben Sie das DeepSeek R1 32b-Modell auf dem Jetson AGX Orin (32G):Der Hyperlink-Login ist sichtbar.
Jetson führt große Sprachmodelle aus:https://www.jetson-ai-lab.com/models.html

Verzichtserklärung:
Alle von Code Farmer Network veröffentlichten Software, Programmiermaterialien oder Artikel dienen ausschließlich Lern- und Forschungszwecken; Die oben genannten Inhalte dürfen nicht für kommerzielle oder illegale Zwecke verwendet werden, andernfalls tragen die Nutzer alle Konsequenzen. Die Informationen auf dieser Seite stammen aus dem Internet, und Urheberrechtsstreitigkeiten haben nichts mit dieser Seite zu tun. Sie müssen die oben genannten Inhalte innerhalb von 24 Stunden nach dem Download vollständig von Ihrem Computer löschen. Wenn Ihnen das Programm gefällt, unterstützen Sie bitte echte Software, kaufen Sie die Registrierung und erhalten Sie bessere echte Dienstleistungen. Falls es eine Verletzung gibt, kontaktieren Sie uns bitte per E-Mail.

Mail To:help@itsvse.com