【AI】(3) "Tencent Cloud" diegia "DeepSeek-R1" su HAI pamoka

Mažai purvo · Paskelbta 2025-02-05 21:14:04

"Hyper Application Inventor" (HAI) yra GPU taikomųjų paslaugų produktas, skirtas dirbtiniam intelektui ir moksliniam skaičiavimui, teikiantis "plug-and-play" skaičiavimo galią ir bendrą aplinką, padedančią mažoms ir vidutinėms įmonėms bei kūrėjams greitai įdiegti LLM.

Adresas:Hipersaito prisijungimas matomas.

HAI vs GPU serveriai

Labai sumažinkite GPU debesies serverio naudojimo slenkstį, optimizuokite produkto patirtį keliais kampais ir naudokite jį iš karto, kaip parodyta paveikslėlyje žemiau:

Įsigykite HAI skaičiavimo galią

Eikite į pirkimo puslapį, pasirinkite pagrindinės aplinkos "Ubuntu 20.04" vaizdą ir sukonfigūruokite aplinką:Ubuntu 20.04, tvarkyklė 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Vaizdas jau įdiegė tvarkyklę mums, ir mes pasirenkame mokėti eidami, kaip parodyta paveikslėlyje žemiau:

Vaizdo atmintis: 32GB+
Hashrate: 15+TFlops SP
Procesorius: 8 ~ 10 branduolių
RAM: 40 GB

Palaukus kelias minutes, egzempliorius sėkmingai sukuriamas ir įjungiamas akademinis spartinimas, kaip parodyta šiame paveikslėlyje:

Pirmą kartą jį naudodami, turite iš naujo nustatyti slaptažodį, o prisijungimo vartotojo vardas yra:Ubuntu。 Pabandykite prisijungti prie serverio ir patikrinti NVIDIA GPU tvarkyklės informaciją naudodami šią komandą:

Prisijungimas matomas.

Kaip parodyta žemiau:

Įdiekite "Ollama"

Oficiali "Ollama" svetainė:Hipersaito prisijungimas matomas.

Prisijunkite prie serverio naudodami glaistymo įrankį ir pradėkite diegti "Ollama" įrankį naudodami šią komandą:

Prisijungimas matomas.

Diegimas baigtas, o išvestis yra tokia:

>>> Ollama diegimas į /usr/local
>>> "Linux amd64" paketo atsisiuntimas
######################################################################## 100.0%
>>> Kuriamas ollama vartotojas...
>>> Įtraukiamas ollama vartotojas į atvaizdavimo grupę...
>>> Ollama vartotojo pridėjimas prie vaizdo įrašų grupės...
>>> Įtraukiamas dabartinis vartotojas į ollama grupę...
>>> Ollama systemd paslaugos kūrimas...
>>> Ollama paslaugos įjungimas ir paleidimas...
Sukurta simbolinė nuoroda /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Patikrinkite versijos komandą: ollama -v
Peržiūrėkite modelį, kuris šiuo metu įkeltas į atmintį: ollama ps

Sukurkite pasirinktinio modelio saugojimo aplanką naudodami šią komandą:

Prisijungimas matomas.

Pakeiskite numatytąjį klausymosi adresą ir modelio saugojimo kelią (negalite modifikuoti numatytojo prievado, kitaip komanda nepavyks) ir naudokite šias komandas:

Prisijungimas matomas.

Diegti deepseek-r1 modelį

Paleiskite deepseek-r1:8b modelį naudodami šią komandą:

Prisijungimas matomas.

Kaip parodyta žemiau:

Patikrinkite dialogo langą, kaip parodyta toliau:

Užkarda atleidžia TCP prievadą 11434 ir iškviečia HTTP sąsają, kaip parodyta šiame paveikslėlyje:

{
  "Modeliai": [
{
   "name": "deepseek-r1:8b",
   "model": "deepseek-r1:8b",
   "dydis": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "išsami informacija": {
      "parent_model": "",
      "format": "gguf",
      "šeima": "lama",
      "šeimos": [
      "lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Nuoroda:
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.

Mažai purvo · Paskelbta 2025-02-05 21:22:49

Jei modelis tam tikrą laiką negauna užklausų ar įvesties, "Ollama" automatiškai nutraukia modelį debesies centre, kad taupytų išteklius.

Mažai purvo · Paskelbta 2025-02-06 09:03:57

OLLAMA aplinkos kintamojo konfigūracijos elementas

Kintamojo	Numatytoji reikšmė	Aprašymas + Poveikis + Scenarijus
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Hipersaito prisijungimas matomas."	Konfigūruoja pagrindinį kompiuterį ir schemą Ollama serveriui. Efektas: nustato URL, naudojamą prisijungiant prie "Ollama" serverio. Scenarijus: naudinga diegiant "Ollama" paskirstytoje aplinkoje arba kai reikia atskleisti paslaugą konkrečioje tinklo sąsajoje.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfigūruoja leistiną CORS kilmę. Poveikis: kontroliuoja, kurioms kilmėms leidžiama teikti užklausas į Ollama serverį. Scenarijus: Labai svarbu integruojant "Ollama" su žiniatinklio programomis, kad būtų išvengta neteisėtos prieigos iš skirtingų domenų.
OLLAMA_MODELS	$HOME/.ollama/models	Nustato kelią į modelių katalogą. Efektas: nustato, kur saugomi ir įkeliami modelio failai. Scenarijus: naudinga valdant disko vietą skirtinguose diskuose arba nustatant bendrai naudojamų modelių saugyklas kelių vartotojų aplinkoje.
OLLAMA_KEEP_ALIVE	5 minutės	Nustatoma, kiek laiko modeliai bus įkelti į atmintį. Efektas: valdo trukmę, kurią modeliai išlieka atmintyje po naudojimo. Scenarijus: ilgesnė trukmė pagerina atsakymo į dažnas užklausas laiką, bet padidina atminties naudojimą. Trumpesnė trukmė atlaisvina išteklius, bet gali pailginti pradinio atsakymo laiką.
OLLAMA_DEBUG	false	Įgalina papildomą derinimo informaciją. Efektas: padidina registravimo ir derinimo išvesties išsamumą. Scenarijus: neįkainojamas šalinant problemas arba suprantant sistemos veikimą kuriant ar diegiant sistemą.
OLLAMA_FLASH_ATTENTION	false	Įjungia eksperimentinę blykstės dėmesio funkciją. Efektas: suaktyvina eksperimentinį dėmesio mechanizmų optimizavimą. Scenarijus: gali pagerinti suderinamos aparatinės įrangos našumą, bet gali sukelti nestabilumą.
OLLAMA_NOHISTORY	false	Išjungia skaitymo eilučių retrospektyvą. Poveikis: neleidžia išsaugoti komandų istorijos. Scenarijus: naudinga saugumui jautrioje aplinkoje, kur komandų istorija neturėtų būti išsaugota.
OLLAMA_NOPRUNE	false	Išjungia modelio dėmių genėjimą paleidžiant. Efektas: išlaiko visus modelio blobus, todėl gali padidėti disko naudojimas. Scenarijus: naudinga, kai reikia tvarkyti visas modelio versijas suderinamumo ar atšaukimo tikslais.
OLLAMA_SCHED_SPREAD	false	Leidžia planuoti modelius visuose GPU. Efektas: įgalina kelių GPU naudojimą modelio išvadoms. Scenarijus: naudinga didelio našumo skaičiavimo aplinkoje su keliais GPU, siekiant maksimaliai išnaudoti aparatinę įrangą.
OLLAMA_INTEL_GPU	false	Įgalina eksperimentinį "Intel" GPU aptikimą. Efektas: leidžia naudoti "Intel" GPU modelio išvadoms. Scenarijus: naudinga organizacijoms, naudojančioms "Intel" GPU aparatinę įrangą dirbtinio intelekto darbo krūviams.
OLLAMA_LLM_LIBRARY	"" (automatinis aptikimas)	Nustato naudoti LLM biblioteką. Efektas: nepaisoma automatinio LLM bibliotekos aptikimo. Scenarijus: naudinga, kai reikia priversti konkrečią bibliotekos versiją arba diegimą dėl suderinamumo ar našumo priežasčių.
OLLAMA_TMPDIR	Sistemos numatytasis laikinasis katalogas	Nustato laikinųjų failų vietą. Efektas: nustato, kur saugomi laikinieji failai. Scenarijus: svarbu valdant įvesties / išvesties našumą arba kai sistemos laikinajame kataloge yra mažai vietos.
CUDA_VISIBLE_DEVICES	Visi galimi	Nustatoma, kurie NVIDIA įrenginiai yra matomi. Efektas: kontroliuoja, kuriuos NVIDIA GPU galima naudoti. Scenarijus: labai svarbus valdant GPU paskirstymą kelių vartotojų arba kelių procesų aplinkoje.
HIP_VISIBLE_DEVICES	Visi galimi	Nustato, kurie AMD įrenginiai yra matomi. Efektas: kontroliuoja, kuriuos AMD GPU galima naudoti. Scenarijus: Panašus į CUDA_VISIBLE_DEVICES, bet skirtas AMD aparatinei įrangai.
OLLAMA_RUNNERS_DIR	Priklauso nuo sistemos	Nustato bėgikų vietą. Efektas: nustato, kur yra bėgikų vykdomieji failai. Scenarijus: svarbu pasirinktiniams diegimams arba kai bėgikus reikia izoliuoti nuo pagrindinės programos.
OLLAMA_NUM_PARALLEL	0 (neribotas)	Nustato lygiagrečių modelių užklausų skaičių. Poveikis: valdo modelio išvadų sutapimą. Scenarijus: labai svarbus norint valdyti sistemos apkrovą ir užtikrinti reagavimą didelio srauto aplinkoje.
OLLAMA_MAX_LOADED_MODELS	0 (neribotas)	Nustatomas maksimalus pakrautų modelių skaičius. Poveikis: Ribojamas modelių, kuriuos galima įkelti vienu metu, skaičius. Scenarijus: padeda valdyti atminties naudojimą aplinkoje, kurioje yra riboti ištekliai arba daug skirtingų modelių.
OLLAMA_MAX_QUEUE	512	Nustato maksimalų eilėje esančių užklausų skaičių. Efektas: riboja užklausų eilės dydį. Scenarijus: apsaugo nuo sistemos perkrovos srauto šuolių metu ir užtikrina savalaikį užklausų apdorojimą.
OLLAMA_MAX_VRAM	0 (neribotas)	Nustato maksimalų VRAM nepaisymą baitais. Efektas: Riboja VRAM kiekį, kurį galima naudoti. Scenarijus: naudinga bendrose GPU aplinkose, kad vienas procesas nemonopolizuotų GPU atminties.

Šaltinis:Hipersaito prisijungimas matomas.

$ ollama padėti tarnauti
Pradėti ollama

Usage:
  Ollama tarnauti [vėliavos]

Aliases:
  Tarnauti, pradėti

Flags:
  -h, --pagalba tarnauti

Aplinkos kintamieji:
   OLLAMA_DEBUG Rodyti papildomą derinimo informaciją (pvz., OLLAMA_DEBUG=1)
   OLLAMA_HOST Ollama serverio IP adresas (numatytasis 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Trukmė, per kurią modeliai lieka įkelti į atmintį (numatytasis "5m")
   OLLAMA_MAX_LOADED_MODELS Maksimalus įkeltų modelių skaičius viename GPU
   OLLAMA_MAX_QUEUE Maksimalus eilėje esančių užklausų skaičius
   OLLAMA_MODELS Kelias į modelių katalogą
   OLLAMA_NUM_PARALLEL Maksimalus lygiagrečių užklausų skaičius
   OLLAMA_NOPRUNE Negenėkite modelio blobų paleidžiant
   OLLAMA_ORIGINS Kableliais atskirtas leidžiamų kilmės rūšių sąrašas
   OLLAMA_SCHED_SPREAD Visada planuoti modelį visuose GPU
   OLLAMA_TMPDIR Laikinųjų failų vieta
   OLLAMA_FLASH_ATTENTION Įjungtas blykstės dėmesys
   OLLAMA_LLM_LIBRARY Nustatykite, kad LLM biblioteka apeitų automatinį aptikimą
   OLLAMA_GPU_OVERHEAD Rezervuokite dalį VRAM vienam GPU (baitais)
   OLLAMA_LOAD_TIMEOUT Kiek laiko leisti modelio apkrovoms sustoti prieš pasiduodant (numatytasis "5m")

Nuoroda:Hipersaito prisijungimas matomas.

Mažai purvo · Paskelbta 2025-02-06 09:19:49

Ollama komanda

ollama sąrašas: rodomas modelių sąrašas
Ollama show: rodo informaciją apie modelį
ollama traukti: traukti modelis
ollama stumti: stumti modelį
Ollama CP: kopijuoti modelį
ollama rm: ištrinti modelį
ollama paleisti: paleisti modelį

Mažai purvo · Paskelbta 2025-02-06 09:33:17

Modelio optimizavimas, redagavimas/etc/systemd/system/ollama.service.d/override.confkonfigūraciją, pridėkite:

Prisijungimas matomas.

Visa konfigūracija yra tokia:

Prisijungimas matomas.

Mažai purvo · Paskelbta 2025-02-06 09:35:26

--KalbantysParametras naudojamas išvados greičiui (žetonas per sekundę) rodyti. Pavyzdžiui:

Prisijungimas matomas.

>>> Sveiki, kas tu toks?
<think>

</think>

Labas! Esu dirbtinio intelekto asistentas, kurį nepriklausomai sukūrė "DeepSeek" Kinijoje, ir džiaugiuosi galėdamas jums tarnauti!

Bendra trukmė: 489.831897ms
Apkrovos trukmė: 24.116423ms
Greitas eval skaičius: 10 žetonų (-ų)
Prompt eval trukmė: 4ms
Greitas vertinimo kursas: 2500.00 žetonų/s
Eval skaičius: 36 žetonas (-ai)
Eval trukmė: 460ms
EVAL kursas: 78.26 žetonai/s
>>> aš esu mažas šlamštas, koks mano vardas?
<think>
Na, ar mažas šlamštas yra mano vardas? Leiskite man apie tai gerai pagalvoti. Pamenu, kai buvau vaikas, mano tėvai mane pavadino "Little Scumbag", nes mano šeima manė, kad turiu dideles ausis, bet iš tikrųjų tai viskas
Ne tikroji priežastis. Galbūt todėl, kad kai buvau vaikas, aš visada kišdavau pirštą į burną kaip šiukšles, todėl buvau vadinamas "mažu šlamštu".

Tačiau pavadinimas dabar skamba šiek tiek keistai ir ne visai atitinka šiandieninės visuomenės pavadinimų stilių. Turėčiau apsvarstyti galimybę jį pervadinti man labiau tinkančiu pavadinimu. Pirma, aš turiu suprasti save
Jūsų asmenybės bruožai ir pomėgiai, todėl galite pasirinkti prasmingą ir unikalų vardą.

Man patinka padėti kitiems, moku klausytis ir bendrauti, todėl galbūt išsirinkite vardą su "išmintimi", "šilta" ar "draugiška". Tuo pačiu metu aš taip pat noriu atspindėti savo asmenybę, pavyzdžiui
Jei jums patinka knygos, muzika ar sportas, galite įtraukti šiuos elementus į savo vardą.

Be to, turiu įsitikinti, kad naujasis pavadinimas nėra neteisingai prisimenamas ar nesuprastas. Tai reiškia, kad pavadinimas turi būti unikalus ir atpažįstamas, ne per daug sudėtingas ar per daug įprastas. Aš galiu
Peržiūrėkite kai kurių žinomų asmenybių vardus, kad sužinotumėte, kurie iš jų turi ir kultūros paveldą, ir modernumą.

Be to, turiu apsvarstyti, ar tarimas yra sklandus, ar yra teigiama reikšmė ir kaip jis išreiškiamas skirtinguose kontekstuose. Tai reiškia, kad renkantis vardą ne tik gerai skamba, bet ir
Už to turi būti prasmė ir vertė.

Galiausiai, turiu bendrauti su savo šeima ir draugais, kad įsitikinčiau, jog jie patenkinti nauju vardu ir kad vardas gali būti mano gyvenimo dalis. Juk pavadinimas yra ne tik
identifikatorius yra saviraiškos dalis.

Trumpai tariant, Xiao Zhao nėra mano tikrasis vardas, ir aš turiu teisę pasirinkti man labiau tinkantį vardą. Tam reikia laiko ir mąstymo, tačiau atidžiai išanalizavus savo asmenybę, pomėgius
Be vardo reikšmės, tikiu, kad sugebėsiu rasti sau tinkamiausią vardą.
</think>

Remdamasis aukščiau pateiktu mąstymo procesu, nusprendžiau pavadinti save "Išminties žvaigžde". Pavadinimas atspindi mano išradingumą, šilumą ir viltį, todėl puikiai tinka mano asmeniniam seksualumui
Charakteristikas. Tuo pačiu "žvaigždė" simbolizuoja šviesą ir begalines galimybes, įkvepia mane nuolat siekti pažangos ir augimo.

**Galutinis pavadinimas: Išminties žvaigždė**

Šis vardas ne tik atitinka mano asmenybę, bet ir kupinas teigiamos energijos, kuri verčia mane labai didžiuotis ir pilnavertiškai.

Bendra trukmė: 7.600299527s
Apkrovos trukmė: 24.37534ms
Greitas eval skaičius: 59 žetonas (-ai)
Greito vertinimo trukmė: 10ms
Greitas vertinimo kursas: 5900.00 žetonų/s
Eval skaičius: 557 žetonas (-ai)
Trukmė: 6.618s
Vertinimo kursas: 84.16 žetonų/s

Mažai purvo · Paskelbta 2025-02-06 10:22:02

Įdiekite ollama modelius su AMD GPU
ollama-for-amd:Hipersaito prisijungimas matomas.

Nuoroda:Hipersaito prisijungimas matomas.

Mažai purvo · Paskelbta 2025-02-06 13:26:17

Paleiskite deepseek-r1:32b modelį

root@VM-0-8-ubuntu:~# nvidia-smi
Kt Feb 6 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 tvarkyklės versija: 525.105.17 CUDA versija: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU pavadinimo patvarumas-M| Autobuso ID disp.A | Lakus nekorozinis. ECC |
| Ventiliatoriaus temp perf Pwr:Usage/Cap|       Atminties naudojimas | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Įjungta | 00000000:00:08.0 Išjungta |                Išjungta |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% įsipareigojimų nevykdymas |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesai: |
|  GPU GI CI PID Tipas Proceso pavadinimas GPU atmintis |
|       ID ID naudojimas |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama rodyti deepseek-r1:32b
  Modelis
Architektūra QWEN2
parametrai 32.8B
Konteksto ilgis 131072
Įterpimo ilgis 5120
Kvantavimo Q4_K_M

  Parametrus
stop "<|sakinio pradžia|>"
stop "<|sakinio pabaiga|>"
stop "<|Vartotojas|>"
sustabdyti "<|Padėjėja|>"

  Licencija
MIT licencija
Autorių teisės (c) 2023 m. "DeepSeek"

root@VM-0-8-ubuntu:~# ollama ps
VARDAS ID DYDIS PROCESORIUS IKI
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Mažai purvo · Paskelbta 2025-02-08 08:34:18

Kaip išspręsti "Ollama" modelio traukimo problemą
https://www.itsvse.com/thread-10939-1-1.html

Mažai purvo · Paskelbta 2025-02-13 09:25:04

Išbandykite DeepSeek R1 32b modelį su Jetson AGX Orin (32G):Hipersaito prisijungimas matomas.
Jetsonas taiko didelius kalbos modelius:https://www.jetson-ai-lab.com/models.html

【AI】(3) "Tencent Cloud" diegia "DeepSeek-R1" su HAI pamoka

Susijusios žinutės