Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 2394|Antwoord: 10

【AI】(3) Tencent Cloud zet DeepSeek-R1 uit met HAI-tutorial

[Link kopiëren]
Geplaatst op 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) is een GPU-applicatieserviceproduct voor AI en wetenschappelijk rekenen, dat plug-and-play rekenkracht en gemeenschappelijke omgevingen biedt om kleine en middelgrote ondernemingen en ontwikkelaars te helpen snel LLM's te implementeren.

Adres:De hyperlink-login is zichtbaar.

HAI versus GPU-servers

Verlaag de drempel voor gebruik van GPU-cloudservers aanzienlijk, optimaliseer de productervaring vanuit meerdere invalshoeken en gebruik het direct uit de doos, zoals te zien is in de onderstaande figuur:



Koop HAI-rekenkracht

Ga naar de aankooppagina, selecteer de basisomgeving "Ubuntu 20.04" image en configureer de omgeving:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8De afbeelding heeft de driver al voor ons geïnstalleerd, en we kiezen ervoor om te betalen terwijl we gaan, zoals te zien is in de onderstaande figuur:



Videogeheugen: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 cores
RAM: 40GB

Na een paar minuten wachten wordt de instantie succesvol aangemaakt en wordt Academic Acceleration ingeschakeld, zoals te zien is in de volgende figuur:



De eerste keer dat je het gebruikt, moet je je wachtwoord resetten, en de gebruikersnaam van de login is:ubuntu。 Probeer in te loggen op de server en controleer de NVIDIA GPU-driverinformatie met de volgende opdracht:


Zoals hieronder getoond:


Installeer Ollama

Officiële website van Olama:De hyperlink-login is zichtbaar.

Log in op de server met de putty tool en begin met het installeren van de Ollama-tool met het volgende commando:


De installatie is voltooid en de output is als volgt:
>>> Installeren van ollama op /usr/local
>>> Linux amd64 bundle downloaden
######################################################################## 100.0%
>>> Een ollama-gebruiker aanmaken...
>>> Olama-gebruiker toevoegen aan rendergroep...
>>> Olama-gebruiker toevoegen aan videogroep...
>>> Huidige gebruiker toevoegen aan de ollama-groep...
>>> Ollama systemd service creëren...
>>> Ollama-service inschakelen en starten...
Symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service aangemaakt.

Bekijk het versiecommando: ollama -v
Zie het model dat momenteel in het geheugen wordt geladen: ollama ps

Maak een aangepaste model storage-map aan met het volgende commando:

Pas het standaard luisteradres en het modelopslagpad aan (je kunt de standaardpoort niet wijzigen, anders faalt het commando) en gebruik de volgende commando's:


Zet het deepseek-r1-model in

Voer het deepseek-r1:8b-model uit met het volgende commando:


Zoals hieronder getoond:



Test de dialoog zoals hieronder getoond:



De firewall geeft TCP-poort 11434 vrij en roept de HTTP-interface aan, zoals weergegeven in de volgende figuur:



{
  "Modellen": [
    {
      "naam": "deepseek-r1:8b",
      "model": "deepseek-r1:8b",
      "grootte": 6930032640,
      "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "details": {
        "parent_model": "",
        "Formaat": "GGUF",
        "familie": "lama",
        "Families": [
          "lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referentie:
De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.
De hyperlink-login is zichtbaar.




Vorig:[AI] (2) Het verschil tussen DeepSeek-V3 en R1 versies
Volgend:[AI] (4) Gebruik Open WebUI om het DeepSeek-R1-model aan te roepen
 Huisbaas| Geplaatst op 2025-2-5 21:22:49 |
Als het model gedurende een bepaalde periode geen verzoeken of invoer ontvangt, beëindigt Ollama automatisch het model in het cloudcentrum om middelen te besparen.
 Huisbaas| Geplaatst op 6-2-2025 09:03:57 |
Ollama omgevingsvariabele configuratie-item

VeranderlijkStandaardwaardeBeschrijving + Effect + Scenario
OLLAMA_HOST"[color=var(--fgKleur-accent, var(--kleur-accent-fg))]De hyperlink-login is zichtbaar."Stel de host en het schema in voor de Olama-server. Effect: Bepaalt de URL die wordt gebruikt om verbinding te maken met de Olama-server. Scenario: Handig bij het deployen van Ollama in een gedistribueerde omgeving of wanneer je de dienst op een specifieke netwerkinterface wilt exposeren.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Configuraties maakten oorsprong voor CORS mogelijk. Effect: Bepaalt welke oorsprongen verzoeken mogen doen aan de Llama-server. Scenario: Cruciaal bij het integreren van Ollama met webapplicaties om ongeautoriseerde toegang vanuit verschillende domeinen te voorkomen.
OLLAMA_MODELS$HOME/.ollama/modelsStelt het pad in naar de models-directory. Effect: Bepaalt waar modelbestanden worden opgeslagen en geladen. Scenario: Handig voor het beheren van schijfruimte op verschillende schijven of het opzetten van gedeelde modelrepositories in multi-user omgevingen.
OLLAMA_KEEP_ALIVE5 minutenBepaalt hoe lang modellen in het geheugen geladen blijven. Effect: Regelt de duurmodellen die na gebruik in het geheugen blijven. Scenario: Langere duurder verbeteren de responstijden voor frequente zoekopdrachten, maar verhogen het geheugengebruik. Kortere speeltijden maken middelen vrij, maar kunnen de initiële reactietijd verlengen.
OLLAMA_DEBUGfalseMaakt extra debug-informatie mogelijk. Effect: Verhoogt de breedvoerigheid van logging en debugging. Scenario: Onmisbaar voor het oplossen van problemen of het begrijpen van het gedrag van het systeem tijdens ontwikkeling of implementatie.
OLLAMA_FLASH_ATTENTIONfalseMaakt de experimentele flash attention-functie mogelijk. Effect: Activeert een experimentele optimalisatie voor aandachtsmechanismen. Scenario: Kan mogelijk de prestaties op compatibele hardware verbeteren, maar kan instabiliteit veroorzaken.
OLLAMA_NOHISTORYfalseSchakelt de leeslijngeschiedenis uit. Effect: Voorkomt dat de commandogeschiedenis wordt opgeslagen. Scenario: Nuttig in beveiligingsgevoelige omgevingen waar commandogeschiedenis niet behouden mag blijven.
OLLAMA_NOPRUNEfalseSchakelt het snoeien van modelblobs bij het opstarten uit. Effect: Houdt alle modelblobs behouden, wat mogelijk het gebruik van de schijf verhoogt. Scenario: Handig wanneer je alle modelversies moet onderhouden voor compatibiliteit of rollback.
OLLAMA_SCHED_SPREADfalseMaakt het mogelijk om modellen over alle GPU's te plannen. Effect: Maakt gebruik van meerdere GPU's mogelijk voor modelinferentie. Scenario: Voordelig in high-performance computing-omgevingen met meerdere GPU's om het hardwaregebruik te maximaliseren.
OLLAMA_INTEL_GPUfalseMaakt experimentele Intel GPU-detectie mogelijk. Effect: Maakt het gebruik van Intel GPU's mogelijk voor modelinferentie. Scenario: Nuttig voor organisaties die Intel GPU-hardware gebruiken voor AI-workloads.
OLLAMA_LLM_LIBRARY"" (auto-detect)Stelt de LLM-bibliotheek in om te gebruiken. Effect: Overschrijft automatische detectie van de LLM-bibliotheek. Scenario: Handig wanneer je een specifieke bibliotheekversie of implementatie moet forceren vanwege compatibiliteit of prestaties.
OLLAMA_TMPDIRSystem standaard temp directoryStelt de locatie in voor tijdelijke bestanden. Effect: Bepaalt waar tijdelijke bestanden worden opgeslagen. Scenario: Belangrijk voor het beheren van I/O-prestaties of wanneer de tijdelijke systeemmap beperkte ruimte heeft.
CUDA_VISIBLE_DEVICESAlles beschikbaarSets welke NVIDIA-apparaten zichtbaar zijn. Effect: Bepaalt welke NVIDIA GPU's gebruikt kunnen worden. Scenario: Cruciaal voor het beheren van GPU-toewijzing in multi-user of multi-process omgevingen.
HIP_VISIBLE_DEVICESAlles beschikbaarSets welke AMD-apparaten zichtbaar zijn. Effect: Bepaalt welke AMD-GPU's gebruikt mogen worden. Scenario: Vergelijkbaar met CUDA_VISIBLE_DEVICES maar dan voor AMD-hardware.
OLLAMA_RUNNERS_DIRSysteemafhankelijkBepaalt de locatie voor runners. Effect: Bepaalt waar runner-executables zich bevinden. Scenario: Belangrijk voor aangepaste implementaties of wanneer runners geïsoleerd moeten worden van de hoofdapplicatie.
OLLAMA_NUM_PARALLEL0 (onbeperkt)Stelt het aantal parallelle modelverzoeken in. Effect: Beheerst gelijktijdigheid van modelinferentie. Scenario: Cruciaal voor het beheren van de systeembelasting en het waarborgen van responsiviteit in drukbezochte omgevingen.
OLLAMA_MAX_LOADED_MODELS0 (onbeperkt)Stelt het maximale aantal geladen modellen in. Effect: Beperkt het aantal modellen dat gelijktijdig geladen kan worden. Scenario: Helpt bij het beheren van geheugengebruik in omgevingen met beperkte middelen of veel verschillende modellen.
OLLAMA_MAX_QUEUE512Stelt het maximale aantal in de wachtrij staande verzoeken in. Effect: Beperkt de grootte van de verzoekwachtrij. Scenario: Voorkomt systeemoverbelasting tijdens verkeerspieken en zorgt voor tijdige verwerking van verzoeken.
OLLAMA_MAX_VRAM0 (onbeperkt)Stelt een maximale VRAM-overbewerking in bytes in. Effect: Beperkt de hoeveelheid VRAM die gebruikt kan worden. Scenario: Handig in gedeelde GPU-omgevingen om te voorkomen dat één enkel proces het GPU-geheugen monopoliseert.


Bron:De hyperlink-login is zichtbaar.

$ ollama help serveer
Start ollama

Usage:
  Ollama serve [vlaggen]

Aliases:
  Serveer, start

Flags:
  -H, --help help voor de bediening

Omgevingsvariabelen:
      OLLAMA_DEBUG Toon aanvullende debug-informatie (bijv. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-adres voor de Mallama-server (standaard 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE De duur waarin modellen geladen blijven in het geheugen (standaard "5m")
      OLLAMA_MAX_LOADED_MODELS Maximaal aantal geladen modellen per GPU
      OLLAMA_MAX_QUEUE Maximaal aantal in de wachtrij geplaatste verzoeken
      OLLAMA_MODELS Het pad naar de models-directory
      OLLAMA_NUM_PARALLEL Maximaal aantal parallelle verzoeken
      OLLAMA_NOPRUNE Niet modelblobs snoeien bij het opstarten
      OLLAMA_ORIGINS Een komma-gescheiden lijst van toegestane oorsprongen
      OLLAMA_SCHED_SPREAD Plan altijd het model over alle GPU's
      OLLAMA_TMPDIR Locatie voor tijdelijke bestanden
      OLLAMA_FLASH_ATTENTION Flash aandacht ingeschakeld
      OLLAMA_LLM_LIBRARY Stel de LLM-bibliotheek in om autodetectie te omzeilen
      OLLAMA_GPU_OVERHEAD Reserveer een deel van VRAM per GPU (bytes)
      OLLAMA_LOAD_TIMEOUT Hoe lang moet je modelbelastingen laten vastlopen voordat je het opgeeft (standaard "5m")


Referentie:De hyperlink-login is zichtbaar.
 Huisbaas| Geplaatst op 6-2-2025 09:19:49 |
Ollama Commando

ollama-lijst: Toont een lijst van modellen
Ollama show: Toont informatie over het model
Ollama pull: pull model
ollama push: Push-model
Ollama CP: kopieer een model
ollama rm: Verwijder een model
ollama run: Voer een model uit
 Huisbaas| Geplaatst op 6-2-2025 09:33:17 |
Modeloptimalisatie, bewerking/etc/systemd/system/ollama.service.d/override.confconfiguratie, voeg het volgende toe:


De volledige configuratie is als volgt:



 Huisbaas| Geplaatst op 2025-2-6 09:35:26 |
--breedsprakigDe parameter wordt gebruikt om de inferentiesnelheid (token / seconde) weer te geven. Bijvoorbeeld:

>>> Hallo, wie bent u?
<think>

</think>

Hallo! Ik ben een AI-assistent die onafhankelijk is ontwikkeld door DeepSeek in China, en ik help je graag van dienst!

Totale duur: 489,831897ms
Laadduur: 24,116423ms
Prompt evaluatie aantal: 10 token(s)
Duur van promptevaluatie: 4ms
Prompt evaluatiesnelheid: 2500,00 tokens/s
Evaluatieaantal: 36 token(s)
evaluatieduur: 460ms
Evaluatie Rate: 78,26 tokens/s
>>> ik een klein ettertje ben, hoe heet ik ook alweer?
<think>
Nou, is kleine schoft mijn naam? Laat me er goed over nadenken. Ik herinner me dat mijn ouders me als kind "Kleine Schurk" noemden omdat mijn familie dacht dat ik grote oren had, maar dat was het eigenlijk wel
Niet de echte reden. Misschien komt het omdat ik als kind altijd mijn vinger in mijn mond stak als vuilnis, dus werd ik "klein uitschontje" genoemd.

De naam klinkt echter nu wat vreemd en past niet helemaal bij de naamgevingsstijl van de huidige samenleving. Ik zou moeten overwegen het te hernoemen met een naam die beter bij mij past. Eerst moet ik mezelf begrijpen
Je persoonlijkheidstrekken en interesses, zodat je een naam kunt kiezen die zowel betekenisvol als uniek is.

Ik help graag anderen en ben goed in luisteren en communiceren, dus kies misschien een naam met "wijsheid", "warm" of "vriendelijk". Tegelijkertijd wil ik ook mijn persoonlijkheid weerspiegelen, zoals
Als je van boeken, muziek of sport houdt, kun je deze elementen in je naam verwerken.

Bovendien moet ik ervoor zorgen dat de nieuwe naam niet verkeerd wordt herinnerd of verkeerd begrepen. Dit betekent dat de naam uniek en herkenbaar moet zijn, niet te complex of te gewoon. Ik kan
Raadpleeg de namen van enkele bekende figuren om te zien welke zowel cultureel erfgoed als moderniteit hebben.

Daarnaast moet ik overwegen of de uitspraak soepel is, of er een positieve betekenis is, en hoe deze in verschillende contexten wordt uitgedrukt. Dit betekent dat bij het kiezen van een naam niet alleen goed klinkt, maar ook
Er moet betekenis en waarde achter zitten.

Tot slot moet ik communiceren met mijn familie en vrienden om zeker te weten dat ze tevreden zijn met de nieuwe naam en dat de naam een deel kan uitmaken van mijn leven. De naam is immers niet alleen
Identifier is onderdeel van zelfexpressie.

Kortom, Xiao Zhao is niet mijn echte naam, en ik heb het recht om een naam te kiezen die beter bij mij past. Het kost tijd en nadenken, maar door je persoonlijkheid en interesses zorgvuldig te analyseren
Naast de betekenis van de naam geloof ik dat ik de meest geschikte naam voor mezelf zal kunnen vinden.
</think>

Op basis van bovenstaande denkwijze besloot ik mezelf "Wisdom Star" te noemen. De naam weerspiegelt zowel mijn vindingrijkheid, warmte en hoop, waardoor het perfect past bij mijn persoonlijke seksualiteit
Kenmerken. Tegelijkertijd symboliseert de "ster" licht en oneindige mogelijkheden, wat mij inspireert om voortdurend vooruitgang en groei na te streven.

**Definitieve naam: Wisdom Star**

Deze naam past niet alleen bij mijn persoonlijkheid, maar zit ook vol positieve energie die me erg trots en vervuld maakt.

Totale duur: 7,600299527
Laadduur: 24,37534ms
Prompt evaluatie aantal: 59 token(s)
Tijdsduur van promptevaluatie: 10 ms
Prompt evaluatiesnelheid: 5900,00 tokens/s
Evaluatieaantal: 557 token(s)
evaluatieduur: 6,618s
evaluatie: 84,16 tokens/s

 Huisbaas| Geplaatst op 6-2-2025 10:22:02 |
Rol ollama-modellen uit met AMD GPU's
ollama-voor-amd:De hyperlink-login is zichtbaar.

Referentie:De hyperlink-login is zichtbaar.
 Huisbaas| Geplaatst op 6-2-2025 13:26:17 |
Voer het deepseek-r1:32b model uit




root@VM-0-8-ubuntu:~# nvidia-smi
Do 6 feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driverversie: 525.105.17 CUDA-versie: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Naam Persistence-M| Bus-ID Disp.A | Onstabiele Uncorr. ECC |
| Ventilatortemperatuurperf Pwr:Gebruik/Cap|         Geheugengebruik | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Op | 000000000:00:08.0 Uit |                  Af |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% Default |
|                               |                      |                  N.v.t. |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processen: |
|  GPU GI CI PID Type Procesnaam GPU Geheugen |
|        ID ID ID Gebruik |
|=============================================================================|
|    0 N/A N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
    Architectuur qwen2
    parameters 32,8B
    contextlengte 131072
    Inbeddingslengte 5120
    Kwantisatie Q4_K_M

  Parameters
    stop "<|begin van zin|>"
    stop "<|einde van de zin|>"
    stop "<|User|>"
    stop "<|Assistent|>"

  Licentie
    MIT-licentie
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAAM-ID-GROOTTE PROCESSOR TOT
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Huisbaas| Geplaatst op 2025-2-8 08:34:18 |
Hoe het Ollama model pull probleem op te lossen
https://www.itsvse.com/thread-10939-1-1.html
 Huisbaas| Geplaatst op 2025-2-13 09:25:04 |
Ervaar het DeepSeek R1 32b-model op de Jetson AGX Orin (32G):De hyperlink-login is zichtbaar.
Jetson voert grote taalmodellen uit:https://www.jetson-ai-lab.com/models.html

Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com