【AI】(3) Tencent Cloud deployerer DeepSeek-R1 med HAI-veiledning

Lille skurk · Publisert på 05.02.2025 21:14:04

Hyper Application Inventor (HAI) er et GPU-applikasjonstjenesteprodukt for AI og vitenskapelig databehandling, som tilbyr plug-and-play-datakraft og felles miljøer for å hjelpe små og mellomstore bedrifter og utviklere med raskt å implementere LLM-er.

Adresse:Innloggingen med hyperkoblingen er synlig.

HAI vs GPU-servere

Reduser terskelen for bruk av GPU-skyservere betydelig, optimaliser produktopplevelsen fra flere vinkler, og bruk det rett ut av boksen, som vist i figuren under:

Kjøp HAI-datakraft

Gå til kjøpssiden, velg det grunnleggende miljøet "Ubuntu 20.04"-bildet, og konfigurer miljøet:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Bildet har allerede installert driveren for oss, og vi velger å betale underveis, som vist i figuren under:

Videominne: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 kjerner
RAM: 40 GB

Etter å ha ventet noen minutter, opprettes instansen vellykket, og Academic Acceleration slås på, som vist i følgende figur:

Første gang du bruker den, må du tilbakestille passordet ditt, og brukernavnet er:ubuntu。 Prøv å logge inn på serveren og sjekk NVIDIA GPU-driverinformasjonen med følgende kommando:

Innlogging er synlig.

Som vist nedenfor:

Installer Ollama

Ollama offisiell nettside:Innloggingen med hyperkoblingen er synlig.

Logg inn på serveren med skittverktøyet og begynn å installere Ollama-verktøyet med følgende kommando:

Innlogging er synlig.

Installasjonen er fullført, og utgangen er som følger:

>>> Installere ollama til /usr/local
>>> Nedlasting av Linux amd64-pakken
######################################################################## 100.0%
>>> Oppretter ollama-bruker...
>>> Legger til ollama-bruker i gjengivelsesgruppen...
>>> Legger til ollama-bruker i videogruppen...
>>> Legger til nåværende bruker i ollama-gruppen...
>>> Opprettelse av ollama systemd-tjeneste...
>>> Aktiverer og starter ollama-tjeneste...
Opprettet symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Sjekk ut versjonskommandoen: ollama -v
Se modellen som for øyeblikket lastes inn i minnet: ollama ps

Opprett en egendefinert modelllagringsmappe med følgende kommando:

Innlogging er synlig.

Endre standard lytteadresse og modelllagringssti (du kan ikke endre standardporten, ellers vil kommandoen feile) og bruk følgende kommandoer:

Innlogging er synlig.

Ta i bruk deepseek-r1-modellen

Kjør deepseek-r1:8b-modellen med følgende kommando:

Innlogging er synlig.

Som vist nedenfor:

Test dialogen som vist nedenfor:

Brannmuren frigjør TCP-port 11434 og kaller HTTP-grensesnittet, som vist i følgende figur:

{
  "modeller": [
{
   "navn": "deepseek-r1:8b",
   "modell": "deepseek-r1:8b",
   "størrelse": 6930032640,
   "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detaljer": {
      "parent_model": "",
      "format": "gguf",
      "familie": "lama",
      "Familier": [
      "lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referanse:
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 05.02.2025 21:22:49

Hvis modellen ikke mottar forespørsler eller input på en periode, avslutter Ollama automatisk modellen i skysenteret for å spare ressurser.

Lille skurk · Publisert på 06.02.2025 09:03:57

Ollama miljøvariabelkonfigurasjonselement

Variabel	Standardverdi	Beskrivelse + Effekt + Scenario
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Innloggingen med hyperkoblingen er synlig."	Konfigurerer verten og oppsettet for Ollama-serveren. Effekt: Bestemmer URL-en som brukes for å koble til Ollama-serveren. Scenario: Nyttig når du deployerer Ollama i et distribuert miljø eller når du må eksponere tjenesten på et spesifikt nettverksgrensesnitt.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfigurasjoner tillot opprinnelse for CORS. Effekt: Kontrollerer hvilke opprinnelser som får lov til å sende forespørsler til Ollama-serveren. Scenario: Kritisk ved integrering av Ollama med webapplikasjoner for å forhindre uautorisert tilgang fra ulike domener.
OLLAMA_MODELS	$HOME/.ollama/models	Setter veien til models-katalogen. Effekt: Bestemmer hvor modellfiler lagres og lastes fra. Scenario: Nyttig for å administrere diskplass på forskjellige disker eller sette opp delte modellrepositorier i flerbrukermiljøer.
OLLAMA_KEEP_ALIVE	5 minutter	Setter hvor lenge modellene forblir lastet i minnet. Effekt: Kontrollerer varighetsmodellene forblir i minnet etter bruk. Scenario: Lengre varigheter forbedrer responstiden for hyppige forespørsler, men øker minnebruken. Kortere varighet frigjør ressurser, men kan øke de første responstidene.
OLLAMA_DEBUG	false	Muliggjør ytterligere feilsøkingsinformasjon. Effekt: Øker ordrikheten i logging og feilsøking. Scenario: Uvurderlig for feilsøking eller forståelse av systemets oppførsel under utvikling eller utrulling.
OLLAMA_FLASH_ATTENTION	false	Muliggjør eksperimentell flash attention-funksjon. Effekt: Aktiverer en eksperimentell optimalisering for oppmerksomhetsmekanismer. Scenario: Kan potensielt forbedre ytelsen på kompatibel maskinvare, men kan føre til ustabilitet.
OLLAMA_NOHISTORY	false	Deaktiverer leselinjehistorikk. Effekt: Forhindrer at kommandohistorikk lagres. Scenario: Nyttig i sikkerhetssensitive miljøer hvor kommandohistorikk ikke bør opprettholdes.
OLLAMA_NOPRUNE	false	Deaktiverer beskjæring av modellblobs ved oppstart. Effekt: Beholder alle modellblobs, noe som potensielt øker diskbruken. Scenario: Nyttig når du må vedlikeholde alle modellversjoner for kompatibilitet eller tilbakerulling.
OLLAMA_SCHED_SPREAD	false	Tillater planlegging av modeller på tvers av alle GPU-er. Effekt: Muliggjør bruk av flere GPU-er for modellinferens. Scenario: Fordelaktig i høyytelses databehandlingsmiljøer med flere GPU-er for å maksimere maskinvareutnyttelsen.
OLLAMA_INTEL_GPU	false	Muliggjør eksperimentell Intel GPU-deteksjon. Effekt: Tillater bruk av Intel-GPU-er for modellinferens. Scenario: Nyttig for organisasjoner som utnytter Intel GPU-maskinvare for AI-arbeidsbelastninger.
OLLAMA_LLM_LIBRARY	"" (auto-detekter)	Setter LLM-biblioteket til bruk. Effekt: Overstyrer automatisk deteksjon av LLM-biblioteket. Scenario: Nyttig når du trenger å tvinge frem en spesifikk bibliotekversjon eller implementering av kompatibilitets- eller ytelsesgrunner.
OLLAMA_TMPDIR	Systemstandard temp-katalog	Setter plasseringen for midlertidige filer. Effekt: Avgjør hvor midlertidige filer lagres. Scenario: Viktig for å håndtere I/O-ytelse eller når systemets midlertidige katalog har begrenset plass.
CUDA_VISIBLE_DEVICES	Alle tilgjengelige	Setter hvilke NVIDIA-enheter som er synlige. Effekt: Kontrollerer hvilke NVIDIA-GPU-er som kan brukes. Scenario: Kritisk for å håndtere GPU-allokering i flerbruker- eller flerprosessmiljøer.
HIP_VISIBLE_DEVICES	Alle tilgjengelige	Setter hvilke AMD-enheter som er synlige. Effekt: Kontrollerer hvilke AMD-GPU-er som kan brukes. Scenario: Ligner på CUDA_VISIBLE_DEVICES, men for AMD-maskinvare.
OLLAMA_RUNNERS_DIR	Systemavhengig	Setter lokasjonen for løperne. Effekt: Bestemmer hvor runner-kjørbare filer befinner seg. Scenario: Viktig for tilpassede distribusjoner eller når runnere må isoleres fra hovedapplikasjonen.
OLLAMA_NUM_PARALLEL	0 (ubegrenset)	Setter antall forespørsler om parallelle modeller. Effekt: Kontrollerer samtidighet av modellinferens. Scenario: Kritisk for å håndtere systembelastningen og sikre respons i miljøer med mye trafikk.
OLLAMA_MAX_LOADED_MODELS	0 (ubegrenset)	Setter maksimalt antall lastede modeller. Effekt: Begrenser antall modeller som kan lastes samtidig. Scenario: Hjelper til med å håndtere minnebruk i miljøer med begrensede ressurser eller mange forskjellige modeller.
OLLAMA_MAX_QUEUE	512	Setter maksimalt antall forespørsler i kø. Effekt: Begrenser størrelsen på forespørselskøen. Scenario: Forhindrer systemoverbelastning under trafikktopper og sikrer rettidig behandling av forespørsler.
OLLAMA_MAX_VRAM	0 (ubegrenset)	Setter en maksimal VRAM-overstyring i bytes. Effekt: Begrenser hvor mye VRAM som kan brukes. Scenario: Nyttig i delte GPU-miljøer for å forhindre at en enkelt prosess monopoliserer GPU-minnet.

Kilde:Innloggingen med hyperkoblingen er synlig.

$ ollama hjelp til å tjene
Start ollama

Usage:
  Ollama serve [flagg]

Aliases:
  serve, start

Flags:
  -H, --hjelp hjelp til å tjene

Miljøvariabler:
   OLLAMA_DEBUG Vis ytterligere feilsøkingsinformasjon (f.eks. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP-adresse for ollama-serveren (standard 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Varigheten modellene forblir lastet i minnet (standard "5m")
   OLLAMA_MAX_LOADED_MODELS Maksimalt antall lastede modeller per GPU
   OLLAMA_MAX_QUEUE Maksimalt antall forespørsler i kø
   OLLAMA_MODELS Veien til modellkatalogen
   OLLAMA_NUM_PARALLEL Maksimalt antall parallelle forespørsler
   OLLAMA_NOPRUNE Ikke beskjær modellklumper ved oppstart
   OLLAMA_ORIGINS En komma-separert liste over tillatte opprinnelser
   OLLAMA_SCHED_SPREAD Planlegg alltid modellen på tvers av alle GPU-er
   OLLAMA_TMPDIR Plassering for midlertidige filer
   OLLAMA_FLASH_ATTENTION Aktiverte flash-oppmerksomhet
   OLLAMA_LLM_LIBRARY Sett LLM-biblioteket til å omgå autodeteksjon
   OLLAMA_GPU_OVERHEAD Reserver en del VRAM per GPU (bytes)
   OLLAMA_LOAD_TIMEOUT Hvor lenge skal modelllastene stoppe før man gir opp (standard "5m")

Referanse:Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 06.02.2025 09:19:49

Ollama kommando

ollama-liste: Viser en liste over modeller
Ollama show: Viser informasjon om modellen
Ollama pull: pull-modell
ollama push: Push-modell
Ollama CP: kopier en modell
ollama rm: Slett en modell
ollama run: Kjør en modell

Lille skurk · Publisert på 06.02.2025 09:33:17

Modelloptimalisering, redigering/etc/systemd/system/ollama.service.d/override.confkonfigurasjon, legg til følgende:

Innlogging er synlig.

Den komplette konfigurasjonen er som følger:

Innlogging er synlig.

Lille skurk · Publisert på 06.02.2025 09:35:26

--ordrikParameteren brukes til å vise inferenshastigheten (token / sekund). For eksempel:

Innlogging er synlig.

>>> Hallo, hvem er du?
<think>

</think>

Hei! Jeg er en AI-assistent utviklet uavhengig av DeepSeek i Kina, og jeg er glad for å kunne hjelpe deg!

Total varighet: 489,831897 ms
Lastetid: 24,116423 ms
Prompt evaluering: 10 token(er)
Varighet av promptevaluering: 4 ms
Prompt evalueringsrate: 2500,00 tokens/s
Evalantall: 36 token(er)
evalueringsvarighet: 460 ms
evalueringsrate: 78,26 tokens/s
>>> jeg er en liten drittsekk, hva heter jeg?
<think>
Vel, er lille drittsekk mitt navn? La meg tenke nøye gjennom det. Jeg husker da jeg var barn, kalte foreldrene mine meg «Lille Drittsekk» fordi familien min trodde jeg hadde store ører, men egentlig er det det
Ikke den egentlige grunnen. Kanskje det er fordi jeg som barn alltid puttet fingeren i munnen som søppel, så jeg ble kalt «lille drittsekk».

Navnet høres imidlertid litt merkelig ut nå, og det passer ikke helt inn i dagens samfunnsstil. Jeg burde vurdere å gi den et navn som passer meg bedre. Først må jeg forstå meg selv
Dine personlighetstrekk og interesser, slik at du kan velge et navn som både er meningsfullt og unikt.

Jeg liker å hjelpe andre og er flink til å lytte og kommunisere, så kanskje velg et navn med «visdom», «varm» eller «vennlig». Samtidig ønsker jeg også å reflektere personligheten min, som for eksempel
Hvis du liker bøker, musikk eller sport, kan du inkorporere disse elementene i navnet ditt.

Videre må jeg sørge for at det nye navnet ikke blir feilhusket eller misforstått. Dette betyr at navnet må være unikt og gjenkjennelig, ikke for komplekst eller for ordinært. Jeg kan
Se på navnene på noen kjente personer for å se hvilke som har både kulturell arv og modernitet.

I tillegg må jeg vurdere om uttalen er jevn, om det finnes en positiv betydning, og hvordan den uttrykkes i ulike sammenhenger. Dette betyr at når man velger navn, høres det ikke bare bra ut, men også
Det må være mening og verdi bak det.

Til slutt må jeg kommunisere med familie og venner for å sikre at de er fornøyde med det nye navnet og at navnet kan bli en del av livet mitt. Tross alt er navnet ikke bare
Identifikator er en del av selvutfoldelse.

Kort sagt, Xiao Zhao er ikke mitt virkelige navn, og jeg har rett til å velge et navn som passer meg bedre. Det tar tid og tenking, men ved å nøye analysere personligheten og interessene dine
I tillegg til betydningen av navnet, tror jeg at jeg vil klare å finne det mest passende navnet for meg selv.
</think>

Basert på denne tankegangen bestemte jeg meg for å kalle meg «Visdomsstjernen». Navnet gjenspeiler både min oppfinnsomhet, varme og håp, noe som gjør det til en perfekt match for min personlige seksualitet
Egenskaper. Samtidig symboliserer «stjernen» lys og uendelige muligheter, og inspirerer meg til stadig å søke fremgang og vekst.

**Endelig navn: Visdomsstjerne**

Dette navnet passer ikke bare til personligheten min, men er også fullt av positiv energi som gjør meg veldig stolt og tilfreds.

Total varighet: 7,600299527
Lastetid: 24,37534 ms
Prompt evalueringsantall: 59 token(er)
Prompt-evalueringsvarighet: 10 ms
prompt evalueringsrate: 5900,00 tokens/s
Evalantall: 557 token(er)
evalueringsvarighet: 6,618 sekunder
evalueringsrate: 84,16 tokens/s

Lille skurk · Publisert på 06.02.2025 10:22:02

Distribuer ollama-modeller med AMD-GPU-er
Ollama-for-AMD:Innloggingen med hyperkoblingen er synlig.

Referanse:Innloggingen med hyperkoblingen er synlig.

Lille skurk · Publisert på 06.02.2025 13:26:17

Kjør deepseek-r1:32b-modellen

root@VM-0-8-ubuntu:~# nvidia-smi
Tor 6. feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driverversjon: 525.105.17 CUDA-versjon: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU-navn Persistence-M| Bus-ID Disp.A | Ustabil Uncorr. ECC |
| Viftetemperaturytelse Pwr:Bruk/kondensator|       Minnebruk | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  På | 00000000:00:08.0 Av |                Av |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89 % misligholdt |
|                            |                   |                Ikke tilgjengelig |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Prosesser: |
|  GPU GI CI PID Type Prosessnavn GPU Minne |
|       ID-ID-bruk |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modell
Arkitektur qwen2
Parametere 32,8B
kontekstlengde 131072
Innstøpningslengde 5120
Kvantisering Q4_K_M

  Parametere
stopp "<|begynnelsen av setningen|>"
stopp "<|slutt på setning|>"
stop "<|User|>"
stopp "<|Assistant|>"

  Lisens
MIT-lisensen
Opphavsrett (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAVN-ID-STØRRELSE PROSESSOR INNTIL
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Lille skurk · Publisert på 08.02.2025 08:34:18

Hvordan løse Olama-modellens pull-problem
https://www.itsvse.com/thread-10939-1-1.html

Lille skurk · Publisert på 13.02.2025 09:25:04

Opplev DeepSeek R1 32b-modellen på Jetson AGX Orin (32G):Innloggingen med hyperkoblingen er synlig.
Jetson kjører store språkmodeller:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud deployerer DeepSeek-R1 med HAI-veiledning

Relaterte innlegg