【AI】(3) Tencent Cloud zet DeepSeek-R1 uit met HAI-tutorial

Klein tuig · Geplaatst op 05-02-2025 21:14:04

Hyper Application Inventor (HAI) is een GPU-applicatieserviceproduct voor AI en wetenschappelijk rekenen, dat plug-and-play rekenkracht en gemeenschappelijke omgevingen biedt om kleine en middelgrote ondernemingen en ontwikkelaars te helpen snel LLM's te implementeren.

Adres:De hyperlink-login is zichtbaar.

HAI versus GPU-servers

Verlaag de drempel voor gebruik van GPU-cloudservers aanzienlijk, optimaliseer de productervaring vanuit meerdere invalshoeken en gebruik het direct uit de doos, zoals te zien is in de onderstaande figuur:

Koop HAI-rekenkracht

Ga naar de aankooppagina, selecteer de basisomgeving "Ubuntu 20.04" image en configureer de omgeving:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8De afbeelding heeft de driver al voor ons geïnstalleerd, en we kiezen ervoor om te betalen terwijl we gaan, zoals te zien is in de onderstaande figuur:

Videogeheugen: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 cores
RAM: 40GB

Na een paar minuten wachten wordt de instantie succesvol aangemaakt en wordt Academic Acceleration ingeschakeld, zoals te zien is in de volgende figuur:

De eerste keer dat je het gebruikt, moet je je wachtwoord resetten, en de gebruikersnaam van de login is:ubuntu。 Probeer in te loggen op de server en controleer de NVIDIA GPU-driverinformatie met de volgende opdracht:

Inloggen is zichtbaar.

Zoals hieronder getoond:

Installeer Ollama

Officiële website van Olama:De hyperlink-login is zichtbaar.

Log in op de server met de putty tool en begin met het installeren van de Ollama-tool met het volgende commando:

Inloggen is zichtbaar.

De installatie is voltooid en de output is als volgt:

>>> Installeren van ollama op /usr/local
>>> Linux amd64 bundle downloaden
######################################################################## 100.0%
>>> Een ollama-gebruiker aanmaken...
>>> Olama-gebruiker toevoegen aan rendergroep...
>>> Olama-gebruiker toevoegen aan videogroep...
>>> Huidige gebruiker toevoegen aan de ollama-groep...
>>> Ollama systemd service creëren...
>>> Ollama-service inschakelen en starten...
Symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service aangemaakt.

Bekijk het versiecommando: ollama -v
Zie het model dat momenteel in het geheugen wordt geladen: ollama ps

Maak een aangepaste model storage-map aan met het volgende commando:

Inloggen is zichtbaar.

Pas het standaard luisteradres en het modelopslagpad aan (je kunt de standaardpoort niet wijzigen, anders faalt het commando) en gebruik de volgende commando's:

Inloggen is zichtbaar.

Zet het deepseek-r1-model in

Voer het deepseek-r1:8b-model uit met het volgende commando:

Inloggen is zichtbaar.

Zoals hieronder getoond:

Test de dialoog zoals hieronder getoond:

De firewall geeft TCP-poort 11434 vrij en roept de HTTP-interface aan, zoals weergegeven in de volgende figuur:

{
  "Modellen": [
{
   "naam": "deepseek-r1:8b",
   "model": "deepseek-r1:8b",
   "grootte": 6930032640,
   "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "details": {
      "parent_model": "",
      "Formaat": "GGUF",
      "familie": "lama",
      "Families": [
      "lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referentie:
De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.

Klein tuig · Geplaatst op 05-02-2025 21:22:49

Als het model gedurende een bepaalde periode geen verzoeken of invoer ontvangt, beëindigt Ollama automatisch het model in het cloudcentrum om middelen te besparen.

Klein tuig · Geplaatst op 06-02-2025 09:03:57

Ollama omgevingsvariabele configuratie-item

Veranderlijk	Standaardwaarde	Beschrijving + Effect + Scenario
OLLAMA_HOST	"[color=var(--fgKleur-accent, var(--kleur-accent-fg))]De hyperlink-login is zichtbaar."	Stel de host en het schema in voor de Olama-server. Effect: Bepaalt de URL die wordt gebruikt om verbinding te maken met de Olama-server. Scenario: Handig bij het deployen van Ollama in een gedistribueerde omgeving of wanneer je de dienst op een specifieke netwerkinterface wilt exposeren.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Configuraties maakten oorsprong voor CORS mogelijk. Effect: Bepaalt welke oorsprongen verzoeken mogen doen aan de Llama-server. Scenario: Cruciaal bij het integreren van Ollama met webapplicaties om ongeautoriseerde toegang vanuit verschillende domeinen te voorkomen.
OLLAMA_MODELS	$HOME/.ollama/models	Stelt het pad in naar de models-directory. Effect: Bepaalt waar modelbestanden worden opgeslagen en geladen. Scenario: Handig voor het beheren van schijfruimte op verschillende schijven of het opzetten van gedeelde modelrepositories in multi-user omgevingen.
OLLAMA_KEEP_ALIVE	5 minuten	Bepaalt hoe lang modellen in het geheugen geladen blijven. Effect: Regelt de duurmodellen die na gebruik in het geheugen blijven. Scenario: Langere duurder verbeteren de responstijden voor frequente zoekopdrachten, maar verhogen het geheugengebruik. Kortere speeltijden maken middelen vrij, maar kunnen de initiële reactietijd verlengen.
OLLAMA_DEBUG	false	Maakt extra debug-informatie mogelijk. Effect: Verhoogt de breedvoerigheid van logging en debugging. Scenario: Onmisbaar voor het oplossen van problemen of het begrijpen van het gedrag van het systeem tijdens ontwikkeling of implementatie.
OLLAMA_FLASH_ATTENTION	false	Maakt de experimentele flash attention-functie mogelijk. Effect: Activeert een experimentele optimalisatie voor aandachtsmechanismen. Scenario: Kan mogelijk de prestaties op compatibele hardware verbeteren, maar kan instabiliteit veroorzaken.
OLLAMA_NOHISTORY	false	Schakelt de leeslijngeschiedenis uit. Effect: Voorkomt dat de commandogeschiedenis wordt opgeslagen. Scenario: Nuttig in beveiligingsgevoelige omgevingen waar commandogeschiedenis niet behouden mag blijven.
OLLAMA_NOPRUNE	false	Schakelt het snoeien van modelblobs bij het opstarten uit. Effect: Houdt alle modelblobs behouden, wat mogelijk het gebruik van de schijf verhoogt. Scenario: Handig wanneer je alle modelversies moet onderhouden voor compatibiliteit of rollback.
OLLAMA_SCHED_SPREAD	false	Maakt het mogelijk om modellen over alle GPU's te plannen. Effect: Maakt gebruik van meerdere GPU's mogelijk voor modelinferentie. Scenario: Voordelig in high-performance computing-omgevingen met meerdere GPU's om het hardwaregebruik te maximaliseren.
OLLAMA_INTEL_GPU	false	Maakt experimentele Intel GPU-detectie mogelijk. Effect: Maakt het gebruik van Intel GPU's mogelijk voor modelinferentie. Scenario: Nuttig voor organisaties die Intel GPU-hardware gebruiken voor AI-workloads.
OLLAMA_LLM_LIBRARY	"" (auto-detect)	Stelt de LLM-bibliotheek in om te gebruiken. Effect: Overschrijft automatische detectie van de LLM-bibliotheek. Scenario: Handig wanneer je een specifieke bibliotheekversie of implementatie moet forceren vanwege compatibiliteit of prestaties.
OLLAMA_TMPDIR	System standaard temp directory	Stelt de locatie in voor tijdelijke bestanden. Effect: Bepaalt waar tijdelijke bestanden worden opgeslagen. Scenario: Belangrijk voor het beheren van I/O-prestaties of wanneer de tijdelijke systeemmap beperkte ruimte heeft.
CUDA_VISIBLE_DEVICES	Alles beschikbaar	Sets welke NVIDIA-apparaten zichtbaar zijn. Effect: Bepaalt welke NVIDIA GPU's gebruikt kunnen worden. Scenario: Cruciaal voor het beheren van GPU-toewijzing in multi-user of multi-process omgevingen.
HIP_VISIBLE_DEVICES	Alles beschikbaar	Sets welke AMD-apparaten zichtbaar zijn. Effect: Bepaalt welke AMD-GPU's gebruikt mogen worden. Scenario: Vergelijkbaar met CUDA_VISIBLE_DEVICES maar dan voor AMD-hardware.
OLLAMA_RUNNERS_DIR	Systeemafhankelijk	Bepaalt de locatie voor runners. Effect: Bepaalt waar runner-executables zich bevinden. Scenario: Belangrijk voor aangepaste implementaties of wanneer runners geïsoleerd moeten worden van de hoofdapplicatie.
OLLAMA_NUM_PARALLEL	0 (onbeperkt)	Stelt het aantal parallelle modelverzoeken in. Effect: Beheerst gelijktijdigheid van modelinferentie. Scenario: Cruciaal voor het beheren van de systeembelasting en het waarborgen van responsiviteit in drukbezochte omgevingen.
OLLAMA_MAX_LOADED_MODELS	0 (onbeperkt)	Stelt het maximale aantal geladen modellen in. Effect: Beperkt het aantal modellen dat gelijktijdig geladen kan worden. Scenario: Helpt bij het beheren van geheugengebruik in omgevingen met beperkte middelen of veel verschillende modellen.
OLLAMA_MAX_QUEUE	512	Stelt het maximale aantal in de wachtrij staande verzoeken in. Effect: Beperkt de grootte van de verzoekwachtrij. Scenario: Voorkomt systeemoverbelasting tijdens verkeerspieken en zorgt voor tijdige verwerking van verzoeken.
OLLAMA_MAX_VRAM	0 (onbeperkt)	Stelt een maximale VRAM-overbewerking in bytes in. Effect: Beperkt de hoeveelheid VRAM die gebruikt kan worden. Scenario: Handig in gedeelde GPU-omgevingen om te voorkomen dat één enkel proces het GPU-geheugen monopoliseert.

Bron:De hyperlink-login is zichtbaar.

$ ollama help serveer
Start ollama

Usage:
  Ollama serve [vlaggen]

Aliases:
  Serveer, start

Flags:
  -H, --help help voor de bediening

Omgevingsvariabelen:
   OLLAMA_DEBUG Toon aanvullende debug-informatie (bijv. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP-adres voor de Mallama-server (standaard 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE De duur waarin modellen geladen blijven in het geheugen (standaard "5m")
   OLLAMA_MAX_LOADED_MODELS Maximaal aantal geladen modellen per GPU
   OLLAMA_MAX_QUEUE Maximaal aantal in de wachtrij geplaatste verzoeken
   OLLAMA_MODELS Het pad naar de models-directory
   OLLAMA_NUM_PARALLEL Maximaal aantal parallelle verzoeken
   OLLAMA_NOPRUNE Niet modelblobs snoeien bij het opstarten
   OLLAMA_ORIGINS Een komma-gescheiden lijst van toegestane oorsprongen
   OLLAMA_SCHED_SPREAD Plan altijd het model over alle GPU's
   OLLAMA_TMPDIR Locatie voor tijdelijke bestanden
   OLLAMA_FLASH_ATTENTION Flash aandacht ingeschakeld
   OLLAMA_LLM_LIBRARY Stel de LLM-bibliotheek in om autodetectie te omzeilen
   OLLAMA_GPU_OVERHEAD Reserveer een deel van VRAM per GPU (bytes)
   OLLAMA_LOAD_TIMEOUT Hoe lang moet je modelbelastingen laten vastlopen voordat je het opgeeft (standaard "5m")

Referentie:De hyperlink-login is zichtbaar.

Klein tuig · Geplaatst op 06-02-2025 09:19:49

Ollama Commando

ollama-lijst: Toont een lijst van modellen
Ollama show: Toont informatie over het model
Ollama pull: pull model
ollama push: Push-model
Ollama CP: kopieer een model
ollama rm: Verwijder een model
ollama run: Voer een model uit

Klein tuig · Geplaatst op 06-02-2025 09:33:17

Modeloptimalisatie, bewerking/etc/systemd/system/ollama.service.d/override.confconfiguratie, voeg het volgende toe:

Inloggen is zichtbaar.

De volledige configuratie is als volgt:

Inloggen is zichtbaar.

Klein tuig · Geplaatst op 06-02-2025 09:35:26

--breedsprakigDe parameter wordt gebruikt om de inferentiesnelheid (token / seconde) weer te geven. Bijvoorbeeld:

Inloggen is zichtbaar.

>>> Hallo, wie bent u?
<think>

</think>

Hallo! Ik ben een AI-assistent die onafhankelijk is ontwikkeld door DeepSeek in China, en ik help je graag van dienst!

Totale duur: 489,831897ms
Laadduur: 24,116423ms
Prompt evaluatie aantal: 10 token(s)
Duur van promptevaluatie: 4ms
Prompt evaluatiesnelheid: 2500,00 tokens/s
Evaluatieaantal: 36 token(s)
evaluatieduur: 460ms
Evaluatie Rate: 78,26 tokens/s
>>> ik een klein ettertje ben, hoe heet ik ook alweer?
<think>
Nou, is kleine schoft mijn naam? Laat me er goed over nadenken. Ik herinner me dat mijn ouders me als kind "Kleine Schurk" noemden omdat mijn familie dacht dat ik grote oren had, maar dat was het eigenlijk wel
Niet de echte reden. Misschien komt het omdat ik als kind altijd mijn vinger in mijn mond stak als vuilnis, dus werd ik "klein uitschontje" genoemd.

De naam klinkt echter nu wat vreemd en past niet helemaal bij de naamgevingsstijl van de huidige samenleving. Ik zou moeten overwegen het te hernoemen met een naam die beter bij mij past. Eerst moet ik mezelf begrijpen
Je persoonlijkheidstrekken en interesses, zodat je een naam kunt kiezen die zowel betekenisvol als uniek is.

Ik help graag anderen en ben goed in luisteren en communiceren, dus kies misschien een naam met "wijsheid", "warm" of "vriendelijk". Tegelijkertijd wil ik ook mijn persoonlijkheid weerspiegelen, zoals
Als je van boeken, muziek of sport houdt, kun je deze elementen in je naam verwerken.

Bovendien moet ik ervoor zorgen dat de nieuwe naam niet verkeerd wordt herinnerd of verkeerd begrepen. Dit betekent dat de naam uniek en herkenbaar moet zijn, niet te complex of te gewoon. Ik kan
Raadpleeg de namen van enkele bekende figuren om te zien welke zowel cultureel erfgoed als moderniteit hebben.

Daarnaast moet ik overwegen of de uitspraak soepel is, of er een positieve betekenis is, en hoe deze in verschillende contexten wordt uitgedrukt. Dit betekent dat bij het kiezen van een naam niet alleen goed klinkt, maar ook
Er moet betekenis en waarde achter zitten.

Tot slot moet ik communiceren met mijn familie en vrienden om zeker te weten dat ze tevreden zijn met de nieuwe naam en dat de naam een deel kan uitmaken van mijn leven. De naam is immers niet alleen
Identifier is onderdeel van zelfexpressie.

Kortom, Xiao Zhao is niet mijn echte naam, en ik heb het recht om een naam te kiezen die beter bij mij past. Het kost tijd en nadenken, maar door je persoonlijkheid en interesses zorgvuldig te analyseren
Naast de betekenis van de naam geloof ik dat ik de meest geschikte naam voor mezelf zal kunnen vinden.
</think>

Op basis van bovenstaande denkwijze besloot ik mezelf "Wisdom Star" te noemen. De naam weerspiegelt zowel mijn vindingrijkheid, warmte en hoop, waardoor het perfect past bij mijn persoonlijke seksualiteit
Kenmerken. Tegelijkertijd symboliseert de "ster" licht en oneindige mogelijkheden, wat mij inspireert om voortdurend vooruitgang en groei na te streven.

**Definitieve naam: Wisdom Star**

Deze naam past niet alleen bij mijn persoonlijkheid, maar zit ook vol positieve energie die me erg trots en vervuld maakt.

Totale duur: 7,600299527
Laadduur: 24,37534ms
Prompt evaluatie aantal: 59 token(s)
Tijdsduur van promptevaluatie: 10 ms
Prompt evaluatiesnelheid: 5900,00 tokens/s
Evaluatieaantal: 557 token(s)
evaluatieduur: 6,618s
evaluatie: 84,16 tokens/s

Klein tuig · Geplaatst op 06-02-2025 10:22:02

Rol ollama-modellen uit met AMD GPU's
ollama-voor-amd:De hyperlink-login is zichtbaar.

Referentie:De hyperlink-login is zichtbaar.

Klein tuig · Geplaatst op 06-02-2025 13:26:17

Voer het deepseek-r1:32b model uit

root@VM-0-8-ubuntu:~# nvidia-smi
Do 6 feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driverversie: 525.105.17 CUDA-versie: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Naam Persistence-M| Bus-ID Disp.A | Onstabiele Uncorr. ECC |
| Ventilatortemperatuurperf Pwr:Gebruik/Cap|       Geheugengebruik | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Op | 000000000:00:08.0 Uit |                Af |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% Default |
|                            |                   |                N.v.t. |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processen: |
|  GPU GI CI PID Type Procesnaam GPU Geheugen |
|       ID ID ID Gebruik |
|=============================================================================|
| 0 N/A N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
Architectuur qwen2
parameters 32,8B
contextlengte 131072
Inbeddingslengte 5120
Kwantisatie Q4_K_M

  Parameters
stop "<|begin van zin|>"
stop "<|einde van de zin|>"
stop "<|User|>"
stop "<|Assistent|>"

  Licentie
MIT-licentie
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAAM-ID-GROOTTE PROCESSOR TOT
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Klein tuig · Geplaatst op 08-02-2025 08:34:18

Hoe het Ollama model pull probleem op te lossen
https://www.itsvse.com/thread-10939-1-1.html

Klein tuig · Geplaatst op 13-02-2025 09:25:04

Ervaar het DeepSeek R1 32b-model op de Jetson AGX Orin (32G):De hyperlink-login is zichtbaar.
Jetson voert grote taalmodellen uit:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud zet DeepSeek-R1 uit met HAI-tutorial

Gerelateerde berichten