【AI】(3) Tencent Cloud namešča DeepSeek-R1 z HAI vodičem

Mala drhal · Objavljeno na 5. 02. 2025 21:14:04

Hyper Application Inventor (HAI) je aplikacijski izdelek za uporabo GPU-jev za umetno inteligenco in znanstveno računalništvo, ki zagotavlja plug-and-play računalniško moč in skupna okolja, ki pomagajo malim in srednje velikim podjetjem ter razvijalcem hitro uvajati LLM-je.

Naslov:Prijava do hiperpovezave je vidna.

HAI proti GPU strežnikom

Močno znižajte prag uporabe GPU strežnikov v oblaku, optimizirajte izkušnjo izdelka z več vidikov in ga uporabljajte takoj, kot je prikazano na spodnji sliki:

Nakup HAI računalniške moči

Pojdite na stran za nakup, izberite osnovno sliko okolja "Ubuntu 20.04" in nastavite okolje:Ubuntu 20.04, gonilnik 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Slika nam je že namestila gonilnik in izberemo plačilo sproti, kot je prikazano na spodnji sliki:

Video pomnilnik: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 jeder
RAM: 40GB

Po nekaj minutah čakanja je instanca uspešno ustvarjena in vklopljena je akademska pospešitev, kot je prikazano na naslednji sliki:

Prvič, ko ga uporabite, morate ponastaviti geslo, uporabniško ime za prijavo pa je:Ubuntu。 Poskusite se prijaviti na strežnik in preveriti informacije o NVIDIA gonilniku grafične kartice z naslednjim ukazom:

Prijava je vidna.

Kot je prikazano spodaj:

Namestite Ollamo

Uradna spletna stran Ollama:Prijava do hiperpovezave je vidna.

Prijavite se na strežnik z orodjem kitty in začnite nameščati orodje Ollama z naslednjim ukazom:

Prijava je vidna.

Namestitev je zaključena, izhod pa je naslednji:

>>> Namestitev ollame na /usr/local
>>> Prenos Linux paketa amd64
######################################################################## 100.0%
>>> Ustvarjanje uporabnika ollama...
>>> Dodajanje uporabnika ollama v render skupino...
>>> Dodajanje uporabnika ollama v video skupino...
>>> Dodajanje trenutnega uporabnika v ollama skupino...
>>> Ustvarjanje ollama sistemske storitve...
>>> Omogočanje in začetek storitve ollama...
Ustvarjena symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Poglej ukaz version: ollama -v
Oglejte si model, ki je trenutno naložen v pomnilnik: ollama ps

Ustvarite mapo za shranjevanje modelov po meri z naslednjim ukazom:

Prijava je vidna.

Spremenite privzeti naslov poslušanja in pot do shranjevanja modela (privzetega porta ne morete spremeniti, sicer ukaz ne bo uspel) in uporabite naslednje ukaze:

Prijava je vidna.

Uvedba modela deepseek-r1

Zaženite model deepseek-r1:8b z naslednjim ukazom:

Prijava je vidna.

Kot je prikazano spodaj:

Preizkusite dialog, kot je prikazano spodaj:

Požarni zid sprosti TCP port 11434 in pokliče HTTP vmesnik, kot je prikazano na naslednji sliki:

{
  "Modeli": [
{
   "ime": "deepseek-r1:8b",
   "Model": "Deepseek-R1:8B",
   "velikost": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "podrobnosti": {
      "parent_model": "",
      "Format": "Gguf",
      "družina": "lama",
      "družine": [
      "Lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referenčni:
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.
Prijava do hiperpovezave je vidna.

Mala drhal · Objavljeno na 5. 02. 2025 21:22:49

Če model nekaj časa ne prejme zahtevkov ali vhodov, Ollama samodejno zaključi model v oblačnem centru, da prihrani vire.

Mala drhal · Objavljeno na 6. 02. 2025 09:03:57

Ollama Environment variable Configuration Item

Spremenljivka	Privzeta vrednost	Opis + Učinek + Scenarij
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Prijava do hiperpovezave je vidna."	Konfigurira gostitelja in shemo za strežnik Ollama. Učinek: Določi URL, ki se uporablja za povezavo s strežnikom Ollama. Scenarij: Uporabno pri nameščanju Ollame v distribuiranem okolju ali ko morate storitev izpostaviti na določenem omrežnem vmesniku.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfigurira dovoljene izvore za CORS. Učinek: Nadzoruje, kateri izvori lahko pošiljajo zahteve strežniku Ollama. Scenarij: Ključno pri integraciji Ollame s spletnimi aplikacijami, da se prepreči nepooblaščen dostop iz različnih domen.
OLLAMA_MODELS	$HOME/.ollama/models	Nastavi pot do mape modelov. Učinek: Določa, kje so datoteke modelov shranjene in nalagane. Scenarij: Uporabno za upravljanje prostora na disku na različnih pogonih ali vzpostavitev skupnih modelnih repozitorijev v večuporabniških okoljih.
OLLAMA_KEEP_ALIVE	5 minut	Določi, kako dolgo so modeli naloženi v pomnilniku. Učinek: Nadzoruje, da modeli trajanja ostanejo v spominu po uporabi. Scenarij: Daljše trajanje izboljša odzivne čase na pogoste poizvedbe, a poveča porabo pomnilnika. Krajše trajanje sprosti vire, vendar lahko podaljša začetni odzivni čas.
OLLAMA_DEBUG	false	Omogoča dodatne informacije za razhroščevanje. Učinek: Poveča obsežnost zapisovanja in razhroščevanja. Scenarij: Neprecenljiv za odpravljanje težav ali razumevanje vedenja sistema med razvojem ali uvajanjem.
OLLAMA_FLASH_ATTENTION	false	Omogoča eksperimentalno funkcijo bliskavice pozornosti. Učinek: Aktivira eksperimentalno optimizacijo za mehanizme pozornosti. Scenarij: Lahko potencialno izboljša zmogljivost na združljivi strojni opremi, vendar lahko povzroči nestabilnost.
OLLAMA_NOHISTORY	false	Onemogoči zgodovino readline. Učinek: Prepreči shranjevanje zgodovine ukazov. Scenarij: Uporabno v varnostno občutljivih okoljih, kjer zgodovine ukazov ne bi smeli ohranjati.
OLLAMA_NOPRUNE	false	Onemogoči obrezovanje modelnih blobov ob zagonu. Učinek: Ohrani vse modelne blobove, kar lahko poveča uporabo diska. Scenarij: Koristno, ko morate vzdrževati vse različice modelov zaradi združljivosti ali povračila.
OLLAMA_SCHED_SPREAD	false	Omogoča razporejanje modelov na vseh grafičnih karticah. Učinek: Omogoča uporabo več GPU-jev za modelno inferenco. Scenarij: Koristno v visokozmogljivih računalniških okoljih z več GPU-ji za maksimalno izkoriščenost strojne opreme.
OLLAMA_INTEL_GPU	false	Omogoča eksperimentalno zaznavanje Intel GPU. Učinek: Omogoča uporabo Intel GPU-jev za sklepanje o modelih. Scenarij: Uporabno za organizacije, ki uporabljajo Intelovo GPU strojno opremo za AI naloge.
OLLAMA_LLM_LIBRARY	"" (samodejno zaznavanje)	Nastavi uporabo knjižnice LLM. Učinek: Preglasi samodejno zaznavanje knjižnice LLM. Scenarij: Uporabno, ko morate prisiliti določeno različico knjižnice ali implementacijo zaradi združljivosti ali zmogljivosti.
OLLAMA_TMPDIR	Privzeta začasna imenik sistema	Nastavi lokacijo za začasne datoteke. Učinek: Določa, kje so shranjene začasne datoteke. Scenarij: Pomembno za upravljanje I/O zmogljivosti ali kadar ima sistemski začasni imenik omejen prostor.
CUDA_VISIBLE_DEVICES	Vse je na voljo	Določi, katere NVIDIA naprave so vidne. Učinek: Nadzoruje, katere NVIDIA grafične kartice je mogoče uporabiti. Scenarij: Ključno za upravljanje dodeljevanja GPU v večuporabniških ali večprocesnih okoljih.
HIP_VISIBLE_DEVICES	Vse je na voljo	Določi, katere AMD naprave so vidne. Učinek: Nadzoruje, katere AMD grafične kartice je mogoče uporabiti. Scenarij: Podoben CUDA_VISIBLE_DEVICES, vendar za AMD strojno opremo.
OLLAMA_RUNNERS_DIR	Sistemsko odvisno	Določi lokacijo za tekače. Učinek: Določa, kje se nahajajo izvršljive datoteke runnerja. Scenarij: Pomembno za prilagojene namestitve ali kadar je treba izvajalce izolirati od glavne aplikacije.
OLLAMA_NUM_PARALLEL	0 (neomejeno)	Določa število zahtev za vzporedni model. Učinek: Nadzoruje sočasnost sklepanja modela. Scenarij: Ključno za upravljanje obremenitve sistema in zagotavljanje odzivnosti v okoljih z velikim prometom.
OLLAMA_MAX_LOADED_MODELS	0 (neomejeno)	Določa največje število naloženih modelov. Učinek: Omeji število modelov, ki jih je mogoče naložiti hkrati. Scenarij: Pomaga upravljati porabo pomnilnika v okoljih z omejenimi viri ali različnimi modeli.
OLLAMA_MAX_QUEUE	512	Določi največje število zahtevkov v vrsti. Učinek: Omeji velikost vrste zahtevkov. Scenarij: Preprečuje preobremenjenost sistema med prometnimi sunki in zagotavlja pravočasno obdelavo zahtevkov.
OLLAMA_MAX_VRAM	0 (neomejeno)	Nastavi največjo preglasitev VRAM v bajtih. Učinek: Omeji količino VRAM-a, ki ga je mogoče uporabiti. Scenarij: Uporabno v skupnih GPU okoljih, da prepreči, da bi en sam proces monopoliziral GPU pomnilnik.

Izvir:Prijava do hiperpovezave je vidna.

$ ollama pomagaj servirati
Start ollama

Usage:
  Ollama servis [zastave]

Aliases:
  serviraj, začni

Flags:
  -H, --pomoč za serviranje

Okoljske spremenljivke:
   OLLAMA_DEBUG Prikaži dodatne informacije o odpravljanju napak (npr. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP naslov za ollama strežnik (privzeto 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Trajanje, skozi katero modeli ostanejo naloženi v pomnilniku (privzeto "5m")
   OLLAMA_MAX_LOADED_MODELS Največje število naloženih modelov na grafično kartico
   OLLAMA_MAX_QUEUE Največje število zahtevkov v vrsti
   OLLAMA_MODELS Pot do imenika modelov
   OLLAMA_NUM_PARALLEL Največje število vzporednih zahtevkov
   OLLAMA_NOPRUNE Ob zagonu ne obrezujte modelnih blobov
   OLLAMA_ORIGINS Seznam dovoljenih izvorov, ločen s vejico
   OLLAMA_SCHED_SPREAD Vedno načrtujte model na vseh GPU-jih
   OLLAMA_TMPDIR Lokacija začasnih datotek
   OLLAMA_FLASH_ATTENTION Omogočena flash pozornost
   OLLAMA_LLM_LIBRARY Nastavite knjižnico LLM za obhod samodejnega zaznavanja
   OLLAMA_GPU_OVERHEAD Rezervirajte del VRAM na GPU (bajti)
   OLLAMA_LOAD_TIMEOUT Kako dolgo dovoliti, da se obremenitve modela ustavijo, preden obupajo (privzeto "5m")

Referenčni:Prijava do hiperpovezave je vidna.

Mala drhal · Objavljeno na 6. 02. 2025 09:19:49

Ollama poveljstvo

ollama seznam: Prikazuje seznam modelov
Ollama razstava: Prikazuje informacije o modelu
Ollama pull: pull model
ollama push: Push model
Ollama CP: kopiraj model
ollama rm: Izbriši model
ollama run: Run a model

Mala drhal · Objavljeno na 6. 02. 2025 09:33:17

Optimizacija modela, urejanje/etc/systemd/system/ollama.service.d/override.confkonfiguracijo, dodajte naslednje:

Prijava je vidna.

Celotna konfiguracija je naslednja:

Prijava je vidna.

Mala drhal · Objavljeno na 6. 02. 2025 09:35:26

--VerboseParameter se uporablja za prikaz hitrosti sklepanja (žeton / sekunda). Na primer:

Prijava je vidna.

>>> Pozdravljeni, kdo ste?
<think>

</think>

Zdravo! Sem AI asistent, ki ga je neodvisno razvil DeepSeek na Kitajskem, in z veseljem vam pomagam!

Skupno trajanje: 489,831897 ms
Trajanje obremenitve: 24,116423ms
Število prompt evaluacije: 10 žetonov (žetonov)
Trajanje ocenjevanja prompta: 4 ms
Hitrost ocenjevanja prompta: 2500,00 žetonov/s
Število ocen: 36 žetonov
Trajanje ocene: 460 ms
Eval rate: 78,26 žetonov/s
>>> sem mali baraba, kako mi je ime?
<think>
No, je mali smrad moje ime? Naj dobro premislim. Spomnim se, da so me starši kot otroka poimenovali "Mali baraba", ker je družina mislila, da imam velika ušesa, a v resnici je to to
Ne pravi razlog. Morda zato, ker sem si kot otrok vedno dal prst v usta kot smeti, zato so me klicali "mala drhal".

Vendar pa ime danes zveni nekoliko nenavadno in ne ustreza povsem današnjemu načinu poimenovanja. Moral bi razmisliti o preimenovanju v ime, ki mi bolj ustreza. Najprej moram razumeti sebe
Vaše osebnostne lastnosti in interesi, da lahko izberete ime, ki je hkrati pomenljivo in edinstveno.

Rad pomagam drugim in sem dober v poslušanju ter komunikaciji, zato morda izberi ime z "modrost", "topel" ali "prijazen". Hkrati pa želim odražati tudi svojo osebnost, na primer
Če imate radi knjige, glasbo ali šport, lahko te elemente vključite v svoje ime.

Poleg tega moram poskrbeti, da novo ime ne bo napačno zapomnjeno ali razumljeno. To pomeni, da mora biti ime edinstveno in prepoznavno, ne preveč zapleteno ali preveč običajno. Zmorem
Oglejte si imena nekaterih znanih osebnosti, da vidite, katere imajo tako kulturno dediščino kot sodobnost.

Poleg tega moram upoštevati, ali je izgovorjava gladka, ali obstaja pozitiven pomen in kako je izražen v različnih kontekstih. To pomeni, da pri izbiri imena ne zveni le dobro, ampak tudi
Za tem mora biti smisel in vrednost.

Nazadnje moram komunicirati z družino in prijatelji, da se prepričam, da so zadovoljni z novim imenom in da bo ime lahko del mojega življenja. Navsezadnje ime ni samo
Identifikator je del samoizražanja.

Na kratko, Xiao Zhao ni moje pravo ime in imam pravico izbrati ime, ki mi bolj ustreza. Potrebno je čas in razmišljanje, a s skrbno analizo svoje osebnosti in interesov
Tudi pomen imena verjamem, da bom lahko našel najbolj primerno ime zase.
</think>

Na podlagi zgornjega razmišljanja sem se odločil, da se poimenujem "Zvezda modrosti". Ime odraža tako mojo iznajdljivost kot toplino in upanje, zaradi česar se popolnoma ujema z mojo osebno spolnostjo
Značilnosti. Hkrati "zvezda" simbolizira svetlobo in neskončne možnosti, kar me navdihuje, da nenehno stremim k napredku in rasti.

**Končno ime: Zvezda modrosti**

To ime ne le ustreza moji osebnosti, ampak je tudi polno pozitivne energije, zaradi katere se počutim zelo ponosno in izpolnjeno.

Skupno trajanje: 7.600299527s
Trajanje obremenitve: 24,37534ms
Število prompt evaluacije: 59 žetonov
Trajanje ocenjevanja izziva: 10 ms
Hitrost prompt eval: 5900,00 žetonov/s
Ocena: 557 žetonov
Trajanje ocenjevanja: 6,618 sekund
Ocena hitrosti: 84,16 žetonov/s

Mala drhal · Objavljeno na 6. 02. 2025 10:22:02

Namestitev ollama modelov z AMD grafično kartico
Ollama-for-AMD:Prijava do hiperpovezave je vidna.

Referenčni:Prijava do hiperpovezave je vidna.

Mala drhal · Objavljeno na 6. 02. 2025 13:26:17

Zaženi model deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Čet 6. feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Različica gonilnika: 525.105.17 CUDA različica: 12.0 |
|-------------------------------+----------------------+----------------------+
| Ime GPU Persistence-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Temperatura ventilatorja Performance Pwr:Uporaba/Cap|       Poraba pomnilnika | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Na | 00000000:00:08.0 Izven |                Izklopljeno |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% privzeto |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesi: |
|  GPU GI CI PID Ime procesa GPU Pomnilnik |
|       Uporaba ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
Arhitektura Qwen2
parametri 32.8B
Dolžina konteksta 131072
Dolžina vgradnje 5120
Kvantizacijska Q4_K_M

  Parametrov
Ustavi "<|začetek stavka|>"
Ustavi "<|konec stavka|>"
stop "<|User|>"
ustavi "<|Pomočnik|>"

  Licenca
Licenca MIT
Avtorske pravice (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
IME ID VELIKOST PROCESORJA DO
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Mala drhal · Objavljeno na 8. 02. 2025 08:34:18

Kako rešiti problem vlečenja modela Ollama
https://www.itsvse.com/thread-10939-1-1.html

Mala drhal · Objavljeno na 13. 02. 2025 09:25:04

Preizkusite model DeepSeek R1 32b na Jetson AGX Orin (32G):Prijava do hiperpovezave je vidna.
Jetson upravlja velike jezikovne modele:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud namešča DeepSeek-R1 z HAI vodičem

Sorodne objave