Denne artikel er en spejling af maskinoversættelse, klik venligst her for at springe til den oprindelige artikel.

Udsigt: 2394|Svar: 10

【AI】(3) Tencent Cloud deployerer DeepSeek-R1 med HAI-tutorial

[Kopier link]
Opslået den 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) er et GPU-applikationsserviceprodukt til AI og videnskabelig databehandling, der leverer plug-and-play computerkraft og fælles miljøer for at hjælpe små og mellemstore virksomheder og udviklere med hurtigt at implementere LLM'er.

Adresse:Hyperlink-login er synlig.

HAI vs GPU-servere

Reducer tærsklen for brug af GPU-cloud-servere betydeligt, optimer produktoplevelsen fra flere vinkler, og brug det direkte fra starten, som vist i figuren nedenfor:



Køb HAI-computerkraft

Gå til købssiden, vælg det grundlæggende miljø "Ubuntu 20.04" image, og konfigurer miljøet:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Billedet har allerede installeret driveren for os, og vi vælger at betale undervejs, som vist i figuren nedenfor:



Videohukommelse: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 kerner
RAM: 40GB

Efter at have ventet et par minutter oprettes instansen med succes, og Academic Acceleration aktiveres, som vist i følgende figur:



Første gang du bruger den, skal du nulstille din adgangskode, og login-brugernavnet er:ubuntu。 Prøv at logge ind på serveren og tjek NVIDIA GPU-driveroplysningerne med følgende kommando:


Som vist nedenfor:


Installer Ollama

Ollama officielle hjemmeside:Hyperlink-login er synlig.

Log ind på serveren med putty-værktøjet og begynd at installere Olama-værktøjet med følgende kommando:


Installationen er færdig, og outputtet er som følger:
>>> Installation af ollama til /usr/local
>>> Download af Linux amd64-pakken
######################################################################## 100.0%
>>> Opretter ollama-bruger...
>>> Tilføjelse af ollama-bruger til render-gruppen...
>>> Tilføjelse af ollama-bruger til videogruppen...
>>> Tilføjer nuværende bruger til ollama-gruppen...
>>> Opretter ollama systemd service...
>>> Aktivering og opstart af ollama-tjeneste...
Oprettede symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Tjek versionskommandoen: ollama -v
Se modellen, der aktuelt er indlæst i hukommelsen: ollama ps

Opret en database med en brugerdefineret model-lagringsmappe med følgende kommando:

Ændr standardlytningsadressen og modellagringsstien (du kan ikke ændre standardporten, ellers vil kommandoen fejle) og brug følgende kommandoer:


Udrul deepseek-r1-modellen

Kør deepseek-r1:8b-modellen med følgende kommando:


Som vist nedenfor:



Test dialogen som vist nedenfor:



Firewallen frigiver TCP-port 11434 og kalder HTTP-grænsefladen, som vist i følgende figur:



{
  "modeller": [
    {
      "Navn": "DeepSeek-R1:8B",
      "model": "deepseek-r1:8b",
      "størrelse": 6930032640,
      "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "detaljer": {
        "parent_model": "",
        "format": "gguf",
        "familie": "lama",
        "familier": [
          "lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Henvisning:
Hyperlink-login er synlig.
Hyperlink-login er synlig.
Hyperlink-login er synlig.




Tidligere:[AI] (2) Forskellen mellem DeepSeek-V3 og R1-versioner
Næste:[AI] (4) Brug Open WebUI til at kalde DeepSeek-R1-modellen
 Udlejer| Opslået den 2025-2-5 21:22:49 |
Hvis modellen ikke modtager forespørgsler eller input i en periode, afslutter Ollama automatisk modellen i cloud-centret for at spare ressourcer.
 Udlejer| Opslået den 6-2-2025 09:03:57 |
Ollama miljøvariabel konfigurationselement

VariabelStandardværdiBeskrivelse + Effekt + Scenarie
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Hyperlink-login er synlig."Konfigurerer værten og skemaet for Olama-serveren. Effekt: Bestemmer URL'en, der bruges til at forbinde til Olama-serveren. Scenarie: Nyttigt ved udrulning af Ollama i et distribueret miljø eller når du skal eksponere tjenesten på et specifikt netværksinterface.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfigureringer tillod oprindelse for CORS. Effekt: Kontrollerer, hvilke oprindelser der må foretage anmodninger til Ollama-serveren. Scenarie: Kritisk ved integration af Ollama med webapplikationer for at forhindre uautoriseret adgang fra forskellige domæner.
OLLAMA_MODELS$HOME/.ollama/modelsSætter stien til models-mappen. Effekt: Afgør, hvor modelfilerne gemmes og indlæses fra. Scenarie: Nyttigt til at administrere diskplads på forskellige drev eller opsætte delte modelrepositories i multi-brugermiljøer.
OLLAMA_KEEP_ALIVE5 minutterSætter hvor længe modeller forbliver indlæst i hukommelsen. Effekt: Styrer varighedsmodellerne forbliver i hukommelsen efter brug. Scenarie: Længere varigheder forbedrer svartiderne for hyppige forespørgsler, men øger hukommelsesforbruget. Kortere varigheder frigør ressourcer, men kan øge de indledende responstider.
OLLAMA_DEBUGfalseMuliggør yderligere fejlfindingsinformation. Effekt: Øger omstændigheden i logning og fejlfinding af output. Scenarie: Uvurderligt til fejlfinding eller forståelse af systemets adfærd under udvikling eller implementering.
OLLAMA_FLASH_ATTENTIONfalseMuliggør eksperimentel flash-opmærksomhedsfunktion. Effekt: Aktiverer en eksperimentel optimering for opmærksomhedsmekanismer. Scenarie: Kan potentielt forbedre ydeevnen på kompatibel hardware, men kan introducere ustabilitet.
OLLAMA_NOHISTORYfalseDeaktiverer læselinjehistorik. Effekt: Forhindrer kommandohistorik i at blive gemt. Scenarie: Nyttigt i sikkerhedsfølsomme miljøer, hvor kommandohistorik ikke bør bevares.
OLLAMA_NOPRUNEfalseDeaktiverer beskæring af modelblobs ved opstart. Effekt: Bevarer alle modelblobs, hvilket potentielt øger diskforbruget. Scenarie: Nyttigt, når du skal vedligeholde alle modelversioner for kompatibilitet eller tilbagerulning.
OLLAMA_SCHED_SPREADfalseTillader planlægning af modeller på tværs af alle GPU'er. Effekt: Muliggør brug af multi-GPU til modelinferens. Scenarie: Gavnligt i højtydende computermiljøer med flere GPU'er for at maksimere hardwareudnyttelsen.
OLLAMA_INTEL_GPUfalseMuliggør eksperimentel Intel GPU-detektion. Effekt: Tillader brug af Intel GPU'er til modelinferens. Scenarie: Nyttigt for organisationer, der udnytter Intel GPU-hardware til AI-arbejdsbelastninger.
OLLAMA_LLM_LIBRARY"" (auto-detekter)Sætter LLM-biblioteket til at bruge. Effekt: Overstyrer automatisk detektion af LLM-biblioteket. Scenarie: Nyttigt, når du skal tvinge en specifik biblioteksversion eller implementering af hensyn til kompatibilitet eller ydeevne.
OLLAMA_TMPDIRSystemstandard temp-mappeSætter placeringen for midlertidige filer. Effekt: Bestemmer hvor midlertidige filer gemmes. Scenarie: Vigtigt for at styre I/O-ydelse eller når systemets temp-mappe har begrænset plads.
CUDA_VISIBLE_DEVICESAlle tilgængeligeSæt hvilke NVIDIA-enheder der er synlige. Effekt: Styrer hvilke NVIDIA GPU'er der kan bruges. Scenarie: Kritisk for håndtering af GPU-allokering i multi-bruger eller multi-proces-miljøer.
HIP_VISIBLE_DEVICESAlle tilgængeligeSætter hvilke AMD-enheder der er synlige. Effekt: Styrer hvilke AMD GPU'er der kan bruges. Scenarie: Ligner CUDA_VISIBLE_DEVICES, men til AMD-hardware.
OLLAMA_RUNNERS_DIRSystemafhængigSætter placeringen for løberne. Effekt: Bestemmer hvor runner-eksekverbare filer er placeret. Scenarie: Vigtigt for brugerdefinerede deployments eller når runners skal isoleres fra hovedapplikationen.
OLLAMA_NUM_PARALLEL0 (ubegrænset)Sætter antallet af parallelle modelanmodninger. Effekt: Kontrollerer samtidig modelinferens. Scenarie: Kritisk for at styre systembelastningen og sikre responsivitet i miljøer med høj trafik.
OLLAMA_MAX_LOADED_MODELS0 (ubegrænset)Sætter det maksimale antal lastede modeller. Effekt: Begrænser antallet af modeller, der kan indlæses samtidigt. Scenarie: Hjælper med at håndtere hukommelsesforbrug i miljøer med begrænsede ressourcer eller mange forskellige modeller.
OLLAMA_MAX_QUEUE512Sætter det maksimale antal forespørgsler i kø. Effekt: Begrænser størrelsen på anmodningskøen. Scenarie: Forhindrer systemoverbelastning under trafikspidser og sikrer rettidig behandling af anmodninger.
OLLAMA_MAX_VRAM0 (ubegrænset)Sætter en maksimal VRAM-override i bytes. Effekt: Begrænser mængden af VRAM, der kan bruges. Scenarie: Nyttigt i delte GPU-miljøer for at forhindre, at en enkelt proces monopoliserer GPU-hukommelsen.


Kilde:Hyperlink-login er synlig.

$ ollama hjælp til at tjene
Start ollama

Usage:
  Ollama serve [flag]

Aliases:
  Serve, start

Flags:
  -H, --hjælp hjælp til tjeneste

Miljøvariabler:
      OLLAMA_DEBUG Vis yderligere debug-information (f.eks. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-adresse for Allama-serveren (standard 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Varigheden af modellerne forbliver indlæst i hukommelsen (standard "5m")
      OLLAMA_MAX_LOADED_MODELS Maksimalt antal indlæste modeller pr. GPU
      OLLAMA_MAX_QUEUE Maksimalt antal forespørgsler i kø
      OLLAMA_MODELS Stien til models-kataloget
      OLLAMA_NUM_PARALLEL Maksimalt antal parallelle forespørgsler
      OLLAMA_NOPRUNE Beskære ikke modelblobs ved opstart
      OLLAMA_ORIGINS En komma-adskilt liste over tilladte oprindelser
      OLLAMA_SCHED_SPREAD Planlæg altid modellen på tværs af alle GPU'er
      OLLAMA_TMPDIR Placering for midlertidige filer
      OLLAMA_FLASH_ATTENTION Aktiveret flash-opmærksomhed
      OLLAMA_LLM_LIBRARY Sæt LLM-biblioteket til at omgå autodetektion
      OLLAMA_GPU_OVERHEAD Reserver en del VRAM pr. GPU (bytes)
      OLLAMA_LOAD_TIMEOUT Hvor længe skal man lade modelbelastninger gå i stå, før man giver op (standard "5m")


Henvisning:Hyperlink-login er synlig.
 Udlejer| Opslået den 6-2-2025 09:19:49 |
Olama-kommandoen

ollama-liste: Viser en liste over modeller
Ollama show: Viser information om modellen
Ollama træk: Trækmodel
ollama push: Push-modellen
Ollama CP: Kopier en model
ollama rm: Slet en model
ollama run: Kør en model
 Udlejer| Opslået den 6-2-2025 09:33:17 |
Modeloptimering, redigering/etc/systemd/system/ollama.service.d/override.confkonfiguration, tilføj følgende:


Den komplette konfiguration er som følger:



 Udlejer| Opslået den 6-2-2025 09:35:26 |
--DetaljeretParameteren bruges til at vise slutningshastigheden (token / sekund). For eksempel:

>>> Hej, hvem er du?
<think>

</think>

Hej! Jeg er en AI-assistent udviklet uafhængigt af DeepSeek i Kina, og jeg er glad for at kunne betjene dig!

samlet varighed: 489,831897ms
Load-varighed: 24,116423 ms
Prompt evaluering: 10 token(er)
Promptevalueringsvarighed: 4 ms
Prompt evalueringsrate: 2500,00 tokens/s
Evalueringsantal: 36 token(er)
evalueringsvarighed: 460 ms
evalueringsrate: 78,26 tokens/s
>>> jeg er en lille, hvad hedder jeg?
<think>
Nå, er lille skarn mit navn? Lad mig tænke grundigt over det. Jeg kan huske, da jeg var barn, kaldte mine forældre mig "Lille Skarn", fordi min familie troede, jeg havde store ører, men det var det faktisk
Ikke den egentlige grund. Måske er det fordi, da jeg var barn, stak jeg altid fingeren i munden som skrald, så jeg blev kaldt "lille skidt".

Men navnet lyder lidt mærkeligt nu, og det passer ikke helt til den navngivne stil, man har i dag. Jeg burde overveje at omdøbe det til et navn, der passer bedre til mig. Først skal jeg forstå mig selv
Dine personlighedstræk og interesser, så du kan vælge et navn, der både er meningsfuldt og unikt.

Jeg kan godt lide at hjælpe andre og er god til at lytte og kommunikere, så måske vælg et navn med "visdom", "varm" eller "venlig". Samtidig vil jeg også gerne afspejle min personlighed, såsom
Hvis du kan lide bøger, musik eller sport, kan du inkorporere disse elementer i dit navn.

Derudover skal jeg sikre mig, at det nye navn ikke bliver husket forkert eller misforstået. Det betyder, at navnet skal være unikt og genkendeligt, ikke for komplekst eller for almindeligt. Jeg kan
Se navnene på nogle kendte personer for at se, hvilke der har både kulturel arv og modernitet.

Derudover skal jeg overveje, om udtalen er glat, om der er en positiv betydning, og hvordan den udtrykkes i forskellige sammenhænge. Det betyder, at når man vælger et navn, lyder det ikke kun godt, men også
Der må være mening og værdi bag det.

Endelig skal jeg kommunikere med min familie og mine venner for at sikre, at de er glade for det nye navn, og at navnet kan blive en del af mit liv. Trods alt er navnet ikke kun
Identifikator er en del af selvudtryk.

Kort sagt er Xiao Zhao ikke mit rigtige navn, og jeg har ret til at vælge et navn, der passer mig bedre. Det kræver tid og omtanke, men ved nøje at analysere din personlighed og dine interesser
Ud over navnets betydning tror jeg, at jeg vil kunne finde det mest passende navn til mig selv.
</think>

Baseret på ovenstående tankegang besluttede jeg at kalde mig selv "Visdomsstjernen". Navnet afspejler både min opfindsomhed, varme og håb, hvilket gør det til et perfekt match for min personlige seksualitet
Karakteristika. Samtidig symboliserer "stjernen" lys og uendelige muligheder, hvilket inspirerer mig til konstant at forfølge fremskridt og vækst.

**Endelig navn: Visdomsstjerne**

Dette navn passer ikke kun til min personlighed, men er også fuld af positiv energi, der får mig til at føle mig meget stolt og opfyldt.

samlet varighed: 7,600299527s
Load-varighed: 24,37534 ms
Prompt evaluering: 59 token(er)
Promptevalueringsvarighed: 10 ms
Prompt evalueringsrate: 5900,00 tokens/s
Evaluering: 557 token(er)
evalueringsvarighed: 6,618 sekunder
evalueringsrate: 84,16 tokens/s

 Udlejer| Opslået den 6-2-2025 kl. 10:22:02 |
Udrul ollama-modeller med AMD GPU'er
ollama-for-amd:Hyperlink-login er synlig.

Henvisning:Hyperlink-login er synlig.
 Udlejer| Opslået den 6-2-2025 13:26:17 |
Kør deepseek-r1:32b-modellen




root@VM-0-8-ubuntu:~# nvidia-smi
Tor 6. feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driverversion: 525.105.17 CUDA-version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Navn Persistence-M| Bus-ID Disp.A | Ustabil Uncorr. ECC |
| Ventilatortemperaturperf Pwr:Usage/Cap|         Hukommelsesbrug | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  På | 000000000:00:08.0 Slukket |                  Off |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% Default |
|                               |                      |                  Ikke tilgængeligt |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processer: |
|  GPU GI CI PID Type Procesnavn GPU Hukommelse |
|        ID ID brug |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
    Arkitektur qwen2
    parametre 32,8B
    Kontekstlængde 131072
    Indlejringslængde 5120
    Kvantisering Q4_K_M

  Parametre
    stop "<|begyndelsen af sætningen|>"
    stop "<|slutning af sætning|>"
    stop "<|User|>"
    stop "<|Assistent|>"

  Licens
    MIT-licens
    Ophavsret (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAVN, ID, STØRRELSE, PROCESSOR INDTIL
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Udlejer| Opslået den 2025-2-8 08:34:18 |
Sådan løser man Olama-modellens pull-problem
https://www.itsvse.com/thread-10939-1-1.html
 Udlejer| Opslået den 2025-2-13 09:25:04 |
Oplev DeepSeek R1 32b-modellen på Jetson AGX Orin (32G):Hyperlink-login er synlig.
Jetson kører store sprogmodeller:https://www.jetson-ai-lab.com/models.html

Ansvarsfraskrivelse:
Al software, programmeringsmaterialer eller artikler udgivet af Code Farmer Network er kun til lærings- og forskningsformål; Ovenstående indhold må ikke bruges til kommercielle eller ulovlige formål, ellers skal brugerne bære alle konsekvenser. Oplysningerne på dette site kommer fra internettet, og ophavsretstvister har intet med dette site at gøre. Du skal slette ovenstående indhold fuldstændigt fra din computer inden for 24 timer efter download. Hvis du kan lide programmet, så understøt venligst ægte software, køb registrering og få bedre ægte tjenester. Hvis der er nogen overtrædelse, bedes du kontakte os via e-mail.

Mail To:help@itsvse.com