【AI】(3) Tencent Cloud izvieto DeepSeek-R1 ar HAI apmācību

Maz putas · Publicēts 05.02.2025 21:14:04

Hyper Application Inventor (HAI) ir GPU lietojumprogrammu pakalpojuma produkts mākslīgajam intelektam un zinātniskajai skaitļošanai, kas nodrošina plug-and-play skaitļošanas jaudu un kopīgu vidi, lai palīdzētu maziem un vidējiem uzņēmumiem un izstrādātājiem ātri izvietot LLM.

Adrese:Hipersaites pieteikšanās ir redzama.

HAI vs GPU serveri

Ievērojami samaziniet GPU mākoņservera izmantošanas slieksni, optimizējiet produkta pieredzi no vairākiem leņķiem un izmantojiet to no kastes, kā parādīts zemāk redzamajā attēlā:

Iegādājieties HAI skaitļošanas jaudu

Dodieties uz pirkuma lapu, atlasiet pamata vides "Ubuntu 20.04" attēlu un konfigurējiet vidi:Ubuntu 20.04, draiveris 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Attēlā jau ir instalēts draiveris, un mēs izvēlamies maksāt, kā parādīts zemāk redzamajā attēlā:

Video atmiņa: 32GB+
Hashrate: 15+TFlops SP
Procesors: 8 ~ 10 kodoli
Operatīvā atmiņa: 40GB

Pēc dažu minūšu gaidīšanas instance ir veiksmīgi izveidota un akadēmiskais paātrinājums ir ieslēgts, kā parādīts nākamajā attēlā:

Pirmo reizi to lietojot, jums ir jāatiestata parole, un pieteikšanās lietotājvārds ir:Ubuntu。 Mēģiniet pieteikties serverī un pārbaudīt NVIDIA GPU draivera informāciju, izmantojot šādu komandu:

Pieteikšanās ir redzama.

Kā parādīts zemāk:

Instalējiet Ollama

Ollama oficiālā vietne:Hipersaites pieteikšanās ir redzama.

Piesakieties serverī, izmantojot špakteles rīku, un sāciet instalēt Ollama rīku ar šādu komandu:

Pieteikšanās ir redzama.

Instalēšana ir pabeigta, un izeja ir šāda:

>>> Ollama instalēšana uz /usr/local
>>> Linux amd64 paketes lejupielāde
######################################################################## 100.0%
>>> Ollama lietotāja izveide...
>>> Ollama lietotāja pievienošana atveidošanas grupai...
>>> Ollama lietotāja pievienošana video grupai...
>>> Pašreizējā lietotāja pievienošana ollama grupai...
>>> Ollama systemd pakalpojuma izveide ...
>>> Ollama pakalpojuma iespējošana un palaišana...
Izveidota simboliskā saite /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Pārbaudiet versijas komandu: ollama -v
Skatīt modeli, kas pašlaik ir ielādēts atmiņā: ollama ps

Izveidojiet pielāgota modeļa krātuves mapi, izmantojot šādu komandu:

Pieteikšanās ir redzama.

Modificējiet noklusējuma klausīšanās adresi un modeļa krātuves ceļu (jūs nevarat modificēt noklusējuma portu, pretējā gadījumā komanda neizdosies) un izmantojiet šādas komandas:

Pieteikšanās ir redzama.

Deepseek-r1 modeļa izvietošana

Palaidiet modeli deepseek-r1:8b, izmantojot šādu komandu:

Pieteikšanās ir redzama.

Kā parādīts zemāk:

Pārbaudiet dialoglodziņu, kā parādīts tālāk.

Ugunsmūris atbrīvo TCP portu 11434 un izsauc HTTP interfeisu, kā parādīts šajā attēlā:

{
  "modeļi": [
{
   "name": "deepseek-r1:8b",
   "model": "Deepseek-R1:8B",
   "izmērs": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detaļas": {
      "parent_model": "",
      "format": "gguf",
      "ģimene": "lama",
      "ģimenes": [
      "lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Atsauce:
Hipersaites pieteikšanās ir redzama.
Hipersaites pieteikšanās ir redzama.
Hipersaites pieteikšanās ir redzama.

Maz putas · Publicēts 05.02.2025 21:22:49

Ja modelis kādu laiku nesaņem pieprasījumus vai ievades, Ollama automātiski pārtrauc modeli mākoņa centrā, lai taupītu resursus.

Maz putas · Publicēts 06.02.2025 09:03:57

OLLAMA vides mainīgā konfigurācijas vienums

Mainīgo	Noklusējuma vērtība	Apraksts + Efekts + Scenārijs
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Hipersaites pieteikšanās ir redzama."	Konfigurē resursdatoru un shēmu Ollama serverim. Efekts: nosaka URL, kas tiek izmantots, lai izveidotu savienojumu ar Ollama serveri. Scenārijs: noderīgs, izvietojot Ollama izkliedētā vidē vai ja pakalpojums ir jāatklāj noteiktā tīkla interfeisā.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfigurē atļauto izcelsmi CORS. Efekts: kontrolē, kurai izcelsmei ir atļauts veikt pieprasījumus Ollama serverim. Scenārijs: kritisks, integrējot Ollama ar tīmekļa lietojumprogrammām, lai novērstu nesankcionētu piekļuvi no dažādiem domēniem.
OLLAMA_MODELS	$HOME/.ollama/models	Iestata ceļu uz modeļu direktoriju. Efekts: nosaka, no kurienes tiek glabāti un ielādēti modeļa faili. Scenārijs: noderīgs, lai pārvaldītu diska vietu dažādos diskos vai iestatītu koplietojamu modeļu krātuves vairāku lietotāju vidē.
OLLAMA_KEEP_ALIVE	5 minūtes	Iestata, cik ilgi modeļi paliek ielādēti atmiņā. Efekts: kontrolē, cik ilgi modeļi paliek atmiņā pēc lietošanas. Scenārijs: ilgāks ilgums uzlabo atbildes laiku uz biežiem vaicājumiem, bet palielina atmiņas lietojumu. Īsāks ilgums atbrīvo resursus, bet var palielināt sākotnējo atbildes laiku.
OLLAMA_DEBUG	false	Iespējo papildu atkļūdošanas informāciju. Efekts: palielina reģistrēšanas un atkļūdošanas izvades izvērstumu. Scenārijs: nenovērtējams problēmu novēršanai vai sistēmas darbības izpratnei izstrādes vai izvietošanas laikā.
OLLAMA_FLASH_ATTENTION	false	Iespējo eksperimentālo zibspuldzes uzmanības funkciju. Efekts: aktivizē eksperimentālu optimizāciju uzmanības mehānismiem. Scenārijs: var uzlabot saderīgas aparatūras veiktspēju, bet var radīt nestabilitāti.
OLLAMA_NOHISTORY	false	Atspējo lasīšanas rindu vēsturi. Efekts: neļauj saglabāt komandu vēsturi. Scenārijs: noderīgs drošības jutīgas vidēs, kur komandu vēsture nedrīkst būt saglabāta.
OLLAMA_NOPRUNE	false	Atspējo modeļa blobu atzarošanu startēšanas laikā. Efekts: saglabā visus modeļa blobus, potenciāli palielinot diska lietojumu. Scenārijs: noderīgs, ja ir jāuztur visas modeļa versijas saderības vai atcelšanas nolūkos.
OLLAMA_SCHED_SPREAD	false	Ļauj plānot modeļus visos GPU. Efekts: iespējo vairāku GPU izmantošanu modeļa secinājumiem. Scenārijs: Izdevīgi augstas veiktspējas skaitļošanas vidē ar vairākiem GPU, lai maksimāli palielinātu aparatūras izmantošanu.
OLLAMA_INTEL_GPU	false	Iespējo eksperimentālu Intel GPU noteikšanu. Efekts: ļauj izmantot Intel GPU modeļa secinājumiem. Scenārijs: noderīgs organizācijām, kas izmanto Intel GPU aparatūru AI darba slodzēm.
OLLAMA_LLM_LIBRARY	"" (automātiskā noteikšana)	Iestata izmantojamo LLM bibliotēku. Efekts: ignorē automātisko LLM bibliotēkas noteikšanu. Scenārijs: noderīgs, ja saderības vai veiktspējas apsvērumu dēļ ir nepieciešams piespiest noteiktu bibliotēkas versiju vai ieviešanu.
OLLAMA_TMPDIR	Sistēmas noklusējuma pagaidu direktorijs	Iestata pagaidu failu atrašanās vietu. Efekts: nosaka, kur tiek glabāti pagaidu faili. Scenārijs: Svarīgi, lai pārvaldītu I/O veiktspēju vai ja sistēmas pagaidu direktorijā ir ierobežota vieta.
CUDA_VISIBLE_DEVICES	Visi pieejami	Iestata, kuras NVIDIA ierīces ir redzamas. Efekts: kontrolē, kurus NVIDIA GPU var izmantot. Scenārijs: kritiski svarīgs GPU sadalījuma pārvaldībai vairāku lietotāju vai vairāku procesu vidēs.
HIP_VISIBLE_DEVICES	Visi pieejami	Iestata, kuras AMD ierīces ir redzamas. Efekts: kontrolē, kurus AMD GPU var izmantot. Scenārijs: Līdzīgs CUDA_VISIBLE_DEVICES, bet AMD aparatūrai.
OLLAMA_RUNNERS_DIR	Atkarīgs no sistēmas	Nosaka skrējēju atrašanās vietu. Efekts: nosaka, kur atrodas skrējēju izpildāmie faili. Scenārijs: Svarīgi pielāgotiem izvietojumiem vai gadījumos, kad skrējēji ir jāizolē no galvenās lietojumprogrammas.
OLLAMA_NUM_PARALLEL	0 (neierobežots)	Iestata paralēlo modeļu pieprasījumu skaitu. Efekts: kontrolē modeļa secinājumu vienlaicīgumu. Scenārijs: kritiski svarīgs, lai pārvaldītu sistēmas slodzi un nodrošinātu reaģētspēju vidē ar lielu trafiku.
OLLAMA_MAX_LOADED_MODELS	0 (neierobežots)	Iestata maksimālo ielādēto modeļu skaitu. Efekts: ierobežo vienlaicīgi ielādējamo modeļu skaitu. Scenārijs: palīdz pārvaldīt atmiņas lietojumu vidē ar ierobežotiem resursiem vai daudziem dažādiem modeļiem.
OLLAMA_MAX_QUEUE	512	Iestata maksimālo rindā esošo pieprasījumu skaitu. Efekts: ierobežo pieprasījumu rindas lielumu. Scenārijs: novērš sistēmas pārslodzi trafika pieauguma laikā un nodrošina savlaicīgu pieprasījumu apstrādi.
OLLAMA_MAX_VRAM	0 (neierobežots)	Iestata maksimālo VRAM ignorēšanu baitos. Efekts: ierobežo izmantojamo VRAM daudzumu. Scenārijs: noderīgs koplietojamās GPU vidēs, lai nepieļautu, ka viens process monopolizē GPU atmiņu.

Avots:Hipersaites pieteikšanās ir redzama.

$ ollama palīdz kalpot
Sākt ollama

Usage:
  Ollama kalpo [karogi]

Aliases:
  kalpot, sākt

Flags:
  -h, --palīdzība kalpošanai

Vides mainīgie:
   OLLAMA_DEBUG Rādīt papildu atkļūdošanas informāciju (piemēram, OLLAMA_DEBUG=1)
   OLLAMA_HOST Ollama servera IP adrese (noklusējuma 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Modeļu ielādes ilgums atmiņā (noklusējuma "5m")
   OLLAMA_MAX_LOADED_MODELS Maksimālais ielādēto modeļu skaits vienā GPU
   OLLAMA_MAX_QUEUE Maksimālais rindā esošo pieprasījumu skaits
   OLLAMA_MODELS Ceļš uz modeļu direktoriju
   OLLAMA_NUM_PARALLEL Maksimālais paralēlo pieprasījumu skaits
   OLLAMA_NOPRUNE Startēšanas laikā neapgrieziet modeļa blobus
   OLLAMA_ORIGINS Atļauto izcelsmes veidu saraksts ar komatiem
   OLLAMA_SCHED_SPREAD Vienmēr plānot modeli visos GPU
   OLLAMA_TMPDIR Pagaidu failu atrašanās vieta
   OLLAMA_FLASH_ATTENTION Iespējota zibspuldzes uzmanība
   OLLAMA_LLM_LIBRARY LLM bibliotēkas iestatīšana, lai apietu automātisko noteikšanu
   OLLAMA_GPU_OVERHEAD Rezervējiet daļu VRAM uz GPU (baiti)
   OLLAMA_LOAD_TIMEOUT Cik ilgi ļaut modeļa ielādēm apstāties pirms padošanās (noklusējuma "5m")

Atsauce:Hipersaites pieteikšanās ir redzama.

Maz putas · Publicēts 06.02.2025 09:19:49

Ollama komanda

ollama saraksts: parāda modeļu sarakstu
Ollama šovs: parāda informāciju par modeli
Ollama Pull: velciet modeli
ollama push: Push modelis
Ollama CP: kopēt modeli
ollama rm: modeļa dzēšana
ollama palaist: palaist modeli

Maz putas · Publicēts 06.02.2025 09:33:17

Modeļu optimizācija, rediģēšana/etc/systemd/system/ollama.service.d/override.confkonfigurāciju, pievienojiet sekojošo:

Pieteikšanās ir redzama.

Pilnīga konfigurācija ir šāda:

Pieteikšanās ir redzama.

Maz putas · Publicēts 06.02.2025 09:35:26

--RunīgsParametrs tiek izmantots, lai parādītu secinājumu ātrumu (marķieris sekundē). Piemēram:

Pieteikšanās ir redzama.

>>> Sveiki, kas jūs esat?
<think>

</think>

Labdien! Es esmu mākslīgā intelekta palīgs, ko neatkarīgi izstrādājis DeepSeek Ķīnā, un es priecājos jums kalpot!

Kopējais ilgums: 489.831897ms
Ielādes ilgums: 24.116423ms
Prompt Eval skaits: 10 marķieri (-i)
Prompt eval ilgums: 4ms
Prompt Eval likme: 2500.00 žetoni / s
Eval skaits: 36 marķieri(-i)
Eval ilgums: 460ms
Eval likme: 78.26 žetoni / s
>>> es esmu mazliet skumjš, kāds ir mans vārds?
<think>
Nu, vai mans vārds ir mazais putas? Ļaujiet man par to rūpīgi padomāt. Es atceros, kad es biju bērns, mani vecāki mani nosauca par "Little Scumbag", jo mana ģimene domāja, ka man ir lielas ausis, bet patiesībā tas ir viss
Nav īstais iemesls. Varbūt tas ir tāpēc, ka, kad es biju bērns, es vienmēr ieliku pirkstu mutē kā atkritumus, tāpēc mani sauca par "mazo putu".

Tomēr nosaukums tagad izklausās mazliet dīvaini, un tas ne gluži atbilst mūsdienu sabiedrības nosaukumu stilam. Man vajadzētu apsvērt iespēju to pārdēvēt ar man piemērotāku nosaukumu. Pirmkārt, man ir jāsaprot sevi
Jūsu personības iezīmes un intereses, lai jūs varētu izvēlēties vārdu, kas ir gan jēgpilns, gan unikāls.

Man patīk palīdzēt citiem un labi klausīties un sazināties, tāpēc varbūt izvēlieties vārdu ar "gudrību", "siltu" vai "draudzīgu". Tajā pašā laikā es arī vēlos atspoguļot savu personību, piemēram
Ja jums patīk grāmatas, mūzika vai sports, varat iekļaut šos elementus savā vārdā.

Turklāt man ir jāpārliecinās, ka jaunais nosaukums netiek pārprasts vai pārprasts. Tas nozīmē, ka nosaukumam jābūt unikālam un atpazīstamam, ne pārāk sarežģītam vai pārāk parastam. Es varu
Atsaucieties uz dažu pazīstamu personību vārdiem, lai redzētu, kuriem ir gan kultūras mantojums, gan mūsdienīgums.

Turklāt man ir jāapsver, vai izruna ir gluda, vai ir pozitīva nozīme un kā tā tiek izteikta dažādos kontekstos. Tas nozīmē, ka, izvēloties vārdu, ne tikai izklausās labi, bet arī
Aiz tā ir jābūt jēgai un vērtībai.

Visbeidzot, man ir jāsazinās ar savu ģimeni un draugiem, lai pārliecinātos, ka viņi ir apmierināti ar jauno vārdu un ka vārds var būt daļa no manas dzīves. Galu galā, nosaukums ir ne tikai
Identifikators ir daļa no pašizpausmes.

Īsāk sakot, Xiao Zhao nav mans īstais vārds, un man ir tiesības izvēlēties vārdu, kas man ir piemērotāks. Tas prasa laiku un domāšanu, bet rūpīgi analizējot savu personību, intereses
Tāpat kā vārda nozīme, es uzskatu, ka varēšu atrast sev piemērotāko vārdu.
</think>

Balstoties uz iepriekš minēto domāšanas procesu, es nolēmu sevi nosaukt par "Gudrības zvaigzni". Nosaukums atspoguļo gan manu atjautību, gan siltumu un cerību, padarot to ideāli piemērotu manai personīgajai seksualitātei
Īpašības. Tajā pašā laikā "zvaigzne" simbolizē gaismu un bezgalīgas iespējas, iedvesmojot mani pastāvīgi tiekties uz progresu un izaugsmi.

**Pabeigtais nosaukums: Gudrības zvaigzne**

Šis vārds ne tikai atbilst manai personībai, bet ir arī pozitīvas enerģijas pilns, kas liek justies ļoti lepnam un piepildītam.

Kopējais ilgums: 7.600299527s
Slodzes ilgums: 24.37534ms
Prompt Eval skaits: 59 marķieri(-i)
Prompt eval ilgums: 10ms
Ātrais vērtēšanas ātrums: 5900.00 žetoni / s
Eval skaits: 557 marķieri(-i)
Eval ilgums: 6.618s
Eval likme: 84.16 žetoni / s

Maz putas · Publicēts 06.02.2025 10:22:02

Ollama modeļu izvietošana ar AMD GPU
ollama-for-amd:Hipersaites pieteikšanās ir redzama.

Atsauce:Hipersaites pieteikšanās ir redzama.

Maz putas · Publicēts 06.02.2025 13:26:17

Palaidiet modeli deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Thu Feb 6 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 draivera versija: 525.105.17 CUDA versija: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU nosaukuma noturība-M| Autobusa ID Disp.A | Gaistošs Uncorr. ECC |
| Ventilatora temp perf pwr:Usage/Cap|       Atmiņas izmantošana | GPU-Util skaitļošana M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Ieslēgts | 00000000:00:08.0 Izslēgts |                Izslēgts |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% saistību nepildīšana |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesi: |
|  GPU GI CI PID Tips Procesa nosaukums GPU Atmiņa |
|       ID ID lietojums |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modelis
arhitektūra qwen2
parametri 32.8B
Konteksta garums 131072
Iegulšanas garums 5120
Kvantēšanas Q4_K_M

  Parametrus
stop "<|teikuma sākums|>"
stop "<|teikuma beigas|>"
stop "<|Lietotājs|>"
apturēt "<|Asistents|>"

  Licence
MIT licence
Autortiesības (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NOSAUKUMA ID LIELUMA PROCESORS LĪDZ
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Maz putas · Publicēts 08.02.2025 08:34:18

Kā atrisināt Ollama modeļa vilkšanas problēmu
https://www.itsvse.com/thread-10939-1-1.html

Maz putas · Publicēts 13.02.2025 09:25:04

Izbaudiet DeepSeek R1 32b modeli ar Jetson AGX Orin (32G):Hipersaites pieteikšanās ir redzama.
Jetson izmanto lielus valodas modeļus:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud izvieto DeepSeek-R1 ar HAI apmācību

Saistītās ziņas