Denne artikkelen er en speilartikkel om maskinoversettelse, vennligst klikk her for å hoppe til originalartikkelen.

Utsikt: 2394|Svare: 10

【AI】(3) Tencent Cloud deployerer DeepSeek-R1 med HAI-veiledning

[Kopier lenke]
Publisert 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) er et GPU-applikasjonstjenesteprodukt for AI og vitenskapelig databehandling, som tilbyr plug-and-play-datakraft og felles miljøer for å hjelpe små og mellomstore bedrifter og utviklere med raskt å implementere LLM-er.

Adresse:Innloggingen med hyperkoblingen er synlig.

HAI vs GPU-servere

Reduser terskelen for bruk av GPU-skyservere betydelig, optimaliser produktopplevelsen fra flere vinkler, og bruk det rett ut av boksen, som vist i figuren under:



Kjøp HAI-datakraft

Gå til kjøpssiden, velg det grunnleggende miljøet "Ubuntu 20.04"-bildet, og konfigurer miljøet:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Bildet har allerede installert driveren for oss, og vi velger å betale underveis, som vist i figuren under:



Videominne: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 kjerner
RAM: 40 GB

Etter å ha ventet noen minutter, opprettes instansen vellykket, og Academic Acceleration slås på, som vist i følgende figur:



Første gang du bruker den, må du tilbakestille passordet ditt, og brukernavnet er:ubuntu。 Prøv å logge inn på serveren og sjekk NVIDIA GPU-driverinformasjonen med følgende kommando:


Som vist nedenfor:


Installer Ollama

Ollama offisiell nettside:Innloggingen med hyperkoblingen er synlig.

Logg inn på serveren med skittverktøyet og begynn å installere Ollama-verktøyet med følgende kommando:


Installasjonen er fullført, og utgangen er som følger:
>>> Installere ollama til /usr/local
>>> Nedlasting av Linux amd64-pakken
######################################################################## 100.0%
>>> Oppretter ollama-bruker...
>>> Legger til ollama-bruker i gjengivelsesgruppen...
>>> Legger til ollama-bruker i videogruppen...
>>> Legger til nåværende bruker i ollama-gruppen...
>>> Opprettelse av ollama systemd-tjeneste...
>>> Aktiverer og starter ollama-tjeneste...
Opprettet symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Sjekk ut versjonskommandoen: ollama -v
Se modellen som for øyeblikket lastes inn i minnet: ollama ps

Opprett en egendefinert modelllagringsmappe med følgende kommando:

Endre standard lytteadresse og modelllagringssti (du kan ikke endre standardporten, ellers vil kommandoen feile) og bruk følgende kommandoer:


Ta i bruk deepseek-r1-modellen

Kjør deepseek-r1:8b-modellen med følgende kommando:


Som vist nedenfor:



Test dialogen som vist nedenfor:



Brannmuren frigjør TCP-port 11434 og kaller HTTP-grensesnittet, som vist i følgende figur:



{
  "modeller": [
    {
      "navn": "deepseek-r1:8b",
      "modell": "deepseek-r1:8b",
      "størrelse": 6930032640,
      "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "detaljer": {
        "parent_model": "",
        "format": "gguf",
        "familie": "lama",
        "Familier": [
          "lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referanse:
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.
Innloggingen med hyperkoblingen er synlig.




Foregående:[AI] (2) Forskjellen mellom DeepSeek-V3 og R1-versjoner
Neste:[AI] (4) Bruk Open WebUI for å kalle DeepSeek-R1-modellen
 Vert| Publisert 2025-2-5 21:22:49 |
Hvis modellen ikke mottar forespørsler eller input på en periode, avslutter Ollama automatisk modellen i skysenteret for å spare ressurser.
 Vert| Publisert 6.02.2025 09:03:57 |
Ollama miljøvariabelkonfigurasjonselement

VariabelStandardverdiBeskrivelse + Effekt + Scenario
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Innloggingen med hyperkoblingen er synlig."Konfigurerer verten og oppsettet for Ollama-serveren. Effekt: Bestemmer URL-en som brukes for å koble til Ollama-serveren. Scenario: Nyttig når du deployerer Ollama i et distribuert miljø eller når du må eksponere tjenesten på et spesifikt nettverksgrensesnitt.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfigurasjoner tillot opprinnelse for CORS. Effekt: Kontrollerer hvilke opprinnelser som får lov til å sende forespørsler til Ollama-serveren. Scenario: Kritisk ved integrering av Ollama med webapplikasjoner for å forhindre uautorisert tilgang fra ulike domener.
OLLAMA_MODELS$HOME/.ollama/modelsSetter veien til models-katalogen. Effekt: Bestemmer hvor modellfiler lagres og lastes fra. Scenario: Nyttig for å administrere diskplass på forskjellige disker eller sette opp delte modellrepositorier i flerbrukermiljøer.
OLLAMA_KEEP_ALIVE5 minutterSetter hvor lenge modellene forblir lastet i minnet. Effekt: Kontrollerer varighetsmodellene forblir i minnet etter bruk. Scenario: Lengre varigheter forbedrer responstiden for hyppige forespørsler, men øker minnebruken. Kortere varighet frigjør ressurser, men kan øke de første responstidene.
OLLAMA_DEBUGfalseMuliggjør ytterligere feilsøkingsinformasjon. Effekt: Øker ordrikheten i logging og feilsøking. Scenario: Uvurderlig for feilsøking eller forståelse av systemets oppførsel under utvikling eller utrulling.
OLLAMA_FLASH_ATTENTIONfalseMuliggjør eksperimentell flash attention-funksjon. Effekt: Aktiverer en eksperimentell optimalisering for oppmerksomhetsmekanismer. Scenario: Kan potensielt forbedre ytelsen på kompatibel maskinvare, men kan føre til ustabilitet.
OLLAMA_NOHISTORYfalseDeaktiverer leselinjehistorikk. Effekt: Forhindrer at kommandohistorikk lagres. Scenario: Nyttig i sikkerhetssensitive miljøer hvor kommandohistorikk ikke bør opprettholdes.
OLLAMA_NOPRUNEfalseDeaktiverer beskjæring av modellblobs ved oppstart. Effekt: Beholder alle modellblobs, noe som potensielt øker diskbruken. Scenario: Nyttig når du må vedlikeholde alle modellversjoner for kompatibilitet eller tilbakerulling.
OLLAMA_SCHED_SPREADfalseTillater planlegging av modeller på tvers av alle GPU-er. Effekt: Muliggjør bruk av flere GPU-er for modellinferens. Scenario: Fordelaktig i høyytelses databehandlingsmiljøer med flere GPU-er for å maksimere maskinvareutnyttelsen.
OLLAMA_INTEL_GPUfalseMuliggjør eksperimentell Intel GPU-deteksjon. Effekt: Tillater bruk av Intel-GPU-er for modellinferens. Scenario: Nyttig for organisasjoner som utnytter Intel GPU-maskinvare for AI-arbeidsbelastninger.
OLLAMA_LLM_LIBRARY"" (auto-detekter)Setter LLM-biblioteket til bruk. Effekt: Overstyrer automatisk deteksjon av LLM-biblioteket. Scenario: Nyttig når du trenger å tvinge frem en spesifikk bibliotekversjon eller implementering av kompatibilitets- eller ytelsesgrunner.
OLLAMA_TMPDIRSystemstandard temp-katalogSetter plasseringen for midlertidige filer. Effekt: Avgjør hvor midlertidige filer lagres. Scenario: Viktig for å håndtere I/O-ytelse eller når systemets midlertidige katalog har begrenset plass.
CUDA_VISIBLE_DEVICESAlle tilgjengeligeSetter hvilke NVIDIA-enheter som er synlige. Effekt: Kontrollerer hvilke NVIDIA-GPU-er som kan brukes. Scenario: Kritisk for å håndtere GPU-allokering i flerbruker- eller flerprosessmiljøer.
HIP_VISIBLE_DEVICESAlle tilgjengeligeSetter hvilke AMD-enheter som er synlige. Effekt: Kontrollerer hvilke AMD-GPU-er som kan brukes. Scenario: Ligner på CUDA_VISIBLE_DEVICES, men for AMD-maskinvare.
OLLAMA_RUNNERS_DIRSystemavhengigSetter lokasjonen for løperne. Effekt: Bestemmer hvor runner-kjørbare filer befinner seg. Scenario: Viktig for tilpassede distribusjoner eller når runnere må isoleres fra hovedapplikasjonen.
OLLAMA_NUM_PARALLEL0 (ubegrenset)Setter antall forespørsler om parallelle modeller. Effekt: Kontrollerer samtidighet av modellinferens. Scenario: Kritisk for å håndtere systembelastningen og sikre respons i miljøer med mye trafikk.
OLLAMA_MAX_LOADED_MODELS0 (ubegrenset)Setter maksimalt antall lastede modeller. Effekt: Begrenser antall modeller som kan lastes samtidig. Scenario: Hjelper til med å håndtere minnebruk i miljøer med begrensede ressurser eller mange forskjellige modeller.
OLLAMA_MAX_QUEUE512Setter maksimalt antall forespørsler i kø. Effekt: Begrenser størrelsen på forespørselskøen. Scenario: Forhindrer systemoverbelastning under trafikktopper og sikrer rettidig behandling av forespørsler.
OLLAMA_MAX_VRAM0 (ubegrenset)Setter en maksimal VRAM-overstyring i bytes. Effekt: Begrenser hvor mye VRAM som kan brukes. Scenario: Nyttig i delte GPU-miljøer for å forhindre at en enkelt prosess monopoliserer GPU-minnet.


Kilde:Innloggingen med hyperkoblingen er synlig.

$ ollama hjelp til å tjene
Start ollama

Usage:
  Ollama serve [flagg]

Aliases:
  serve, start

Flags:
  -H, --hjelp hjelp til å tjene

Miljøvariabler:
      OLLAMA_DEBUG Vis ytterligere feilsøkingsinformasjon (f.eks. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-adresse for ollama-serveren (standard 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Varigheten modellene forblir lastet i minnet (standard "5m")
      OLLAMA_MAX_LOADED_MODELS Maksimalt antall lastede modeller per GPU
      OLLAMA_MAX_QUEUE Maksimalt antall forespørsler i kø
      OLLAMA_MODELS Veien til modellkatalogen
      OLLAMA_NUM_PARALLEL Maksimalt antall parallelle forespørsler
      OLLAMA_NOPRUNE Ikke beskjær modellklumper ved oppstart
      OLLAMA_ORIGINS En komma-separert liste over tillatte opprinnelser
      OLLAMA_SCHED_SPREAD Planlegg alltid modellen på tvers av alle GPU-er
      OLLAMA_TMPDIR Plassering for midlertidige filer
      OLLAMA_FLASH_ATTENTION Aktiverte flash-oppmerksomhet
      OLLAMA_LLM_LIBRARY Sett LLM-biblioteket til å omgå autodeteksjon
      OLLAMA_GPU_OVERHEAD Reserver en del VRAM per GPU (bytes)
      OLLAMA_LOAD_TIMEOUT Hvor lenge skal modelllastene stoppe før man gir opp (standard "5m")


Referanse:Innloggingen med hyperkoblingen er synlig.
 Vert| Publisert 6.02.2025 09:19:49 |
Ollama kommando

ollama-liste: Viser en liste over modeller
Ollama show: Viser informasjon om modellen
Ollama pull: pull-modell
ollama push: Push-modell
Ollama CP: kopier en modell
ollama rm: Slett en modell
ollama run: Kjør en modell
 Vert| Publisert 6.2.2025 09:33:17 |
Modelloptimalisering, redigering/etc/systemd/system/ollama.service.d/override.confkonfigurasjon, legg til følgende:


Den komplette konfigurasjonen er som følger:



 Vert| Publisert 6.2.2025 09:35:26 |
--ordrikParameteren brukes til å vise inferenshastigheten (token / sekund). For eksempel:

>>> Hallo, hvem er du?
<think>

</think>

Hei! Jeg er en AI-assistent utviklet uavhengig av DeepSeek i Kina, og jeg er glad for å kunne hjelpe deg!

Total varighet: 489,831897 ms
Lastetid: 24,116423 ms
Prompt evaluering: 10 token(er)
Varighet av promptevaluering: 4 ms
Prompt evalueringsrate: 2500,00 tokens/s
Evalantall: 36 token(er)
evalueringsvarighet: 460 ms
evalueringsrate: 78,26 tokens/s
>>> jeg er en liten drittsekk, hva heter jeg?
<think>
Vel, er lille drittsekk mitt navn? La meg tenke nøye gjennom det. Jeg husker da jeg var barn, kalte foreldrene mine meg «Lille Drittsekk» fordi familien min trodde jeg hadde store ører, men egentlig er det det
Ikke den egentlige grunnen. Kanskje det er fordi jeg som barn alltid puttet fingeren i munnen som søppel, så jeg ble kalt «lille drittsekk».

Navnet høres imidlertid litt merkelig ut nå, og det passer ikke helt inn i dagens samfunnsstil. Jeg burde vurdere å gi den et navn som passer meg bedre. Først må jeg forstå meg selv
Dine personlighetstrekk og interesser, slik at du kan velge et navn som både er meningsfullt og unikt.

Jeg liker å hjelpe andre og er flink til å lytte og kommunisere, så kanskje velg et navn med «visdom», «varm» eller «vennlig». Samtidig ønsker jeg også å reflektere personligheten min, som for eksempel
Hvis du liker bøker, musikk eller sport, kan du inkorporere disse elementene i navnet ditt.

Videre må jeg sørge for at det nye navnet ikke blir feilhusket eller misforstått. Dette betyr at navnet må være unikt og gjenkjennelig, ikke for komplekst eller for ordinært. Jeg kan
Se på navnene på noen kjente personer for å se hvilke som har både kulturell arv og modernitet.

I tillegg må jeg vurdere om uttalen er jevn, om det finnes en positiv betydning, og hvordan den uttrykkes i ulike sammenhenger. Dette betyr at når man velger navn, høres det ikke bare bra ut, men også
Det må være mening og verdi bak det.

Til slutt må jeg kommunisere med familie og venner for å sikre at de er fornøyde med det nye navnet og at navnet kan bli en del av livet mitt. Tross alt er navnet ikke bare
Identifikator er en del av selvutfoldelse.

Kort sagt, Xiao Zhao er ikke mitt virkelige navn, og jeg har rett til å velge et navn som passer meg bedre. Det tar tid og tenking, men ved å nøye analysere personligheten og interessene dine
I tillegg til betydningen av navnet, tror jeg at jeg vil klare å finne det mest passende navnet for meg selv.
</think>

Basert på denne tankegangen bestemte jeg meg for å kalle meg «Visdomsstjernen». Navnet gjenspeiler både min oppfinnsomhet, varme og håp, noe som gjør det til en perfekt match for min personlige seksualitet
Egenskaper. Samtidig symboliserer «stjernen» lys og uendelige muligheter, og inspirerer meg til stadig å søke fremgang og vekst.

**Endelig navn: Visdomsstjerne**

Dette navnet passer ikke bare til personligheten min, men er også fullt av positiv energi som gjør meg veldig stolt og tilfreds.

Total varighet: 7,600299527
Lastetid: 24,37534 ms
Prompt evalueringsantall: 59 token(er)
Prompt-evalueringsvarighet: 10 ms
prompt evalueringsrate: 5900,00 tokens/s
Evalantall: 557 token(er)
evalueringsvarighet: 6,618 sekunder
evalueringsrate: 84,16 tokens/s

 Vert| Publisert 6.02.2025 kl. 10:22:02 |
Distribuer ollama-modeller med AMD-GPU-er
Ollama-for-AMD:Innloggingen med hyperkoblingen er synlig.

Referanse:Innloggingen med hyperkoblingen er synlig.
 Vert| Publisert 6.02.2025 kl. 13:26:17 |
Kjør deepseek-r1:32b-modellen




root@VM-0-8-ubuntu:~# nvidia-smi
Tor 6. feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Driverversjon: 525.105.17 CUDA-versjon: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU-navn Persistence-M| Bus-ID Disp.A | Ustabil Uncorr. ECC |
| Viftetemperaturytelse Pwr:Bruk/kondensator|         Minnebruk | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  På | 00000000:00:08.0 Av |                  Av |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89 % misligholdt |
|                               |                      |                  Ikke tilgjengelig |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Prosesser: |
|  GPU GI CI PID Type Prosessnavn GPU Minne |
|        ID-ID-bruk |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modell
    Arkitektur qwen2
    Parametere 32,8B
    kontekstlengde 131072
    Innstøpningslengde 5120
    Kvantisering Q4_K_M

  Parametere
    stopp "<|begynnelsen av setningen|>"
    stopp "<|slutt på setning|>"
    stop "<|User|>"
    stopp "<|Assistant|>"

  Lisens
    MIT-lisensen
    Opphavsrett (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAVN-ID-STØRRELSE PROSESSOR INNTIL
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Vert| Publisert 2025-2-8 08:34:18 |
Hvordan løse Olama-modellens pull-problem
https://www.itsvse.com/thread-10939-1-1.html
 Vert| Publisert 2025-2-13 09:25:04 |
Opplev DeepSeek R1 32b-modellen på Jetson AGX Orin (32G):Innloggingen med hyperkoblingen er synlig.
Jetson kjører store språkmodeller:https://www.jetson-ai-lab.com/models.html

Ansvarsfraskrivelse:
All programvare, programmeringsmateriell eller artikler publisert av Code Farmer Network er kun for lærings- og forskningsformål; Innholdet ovenfor skal ikke brukes til kommersielle eller ulovlige formål, ellers skal brukerne bære alle konsekvenser. Informasjonen på dette nettstedet kommer fra Internett, og opphavsrettstvister har ingenting med dette nettstedet å gjøre. Du må fullstendig slette innholdet ovenfor fra datamaskinen din innen 24 timer etter nedlasting. Hvis du liker programmet, vennligst støtt ekte programvare, kjøp registrering, og få bedre ekte tjenester. Hvis det foreligger noen krenkelse, vennligst kontakt oss på e-post.

Mail To:help@itsvse.com