Šis straipsnis yra veidrodinis mašininio vertimo straipsnis, spauskite čia norėdami pereiti prie originalaus straipsnio.

Rodinys: 2394|Atsakyti: 10

【AI】(3) "Tencent Cloud" diegia "DeepSeek-R1" su HAI pamoka

[Kopijuoti nuorodą]
Publikuota: 2025-2-5 21:14:04 | | | |
"Hyper Application Inventor" (HAI) yra GPU taikomųjų paslaugų produktas, skirtas dirbtiniam intelektui ir moksliniam skaičiavimui, teikiantis "plug-and-play" skaičiavimo galią ir bendrą aplinką, padedančią mažoms ir vidutinėms įmonėms bei kūrėjams greitai įdiegti LLM.

Adresas:Hipersaito prisijungimas matomas.

HAI vs GPU serveriai

Labai sumažinkite GPU debesies serverio naudojimo slenkstį, optimizuokite produkto patirtį keliais kampais ir naudokite jį iš karto, kaip parodyta paveikslėlyje žemiau:



Įsigykite HAI skaičiavimo galią

Eikite į pirkimo puslapį, pasirinkite pagrindinės aplinkos "Ubuntu 20.04" vaizdą ir sukonfigūruokite aplinką:Ubuntu 20.04, tvarkyklė 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Vaizdas jau įdiegė tvarkyklę mums, ir mes pasirenkame mokėti eidami, kaip parodyta paveikslėlyje žemiau:



Vaizdo atmintis: 32GB+
Hashrate: 15+TFlops SP
Procesorius: 8 ~ 10 branduolių
RAM: 40 GB

Palaukus kelias minutes, egzempliorius sėkmingai sukuriamas ir įjungiamas akademinis spartinimas, kaip parodyta šiame paveikslėlyje:



Pirmą kartą jį naudodami, turite iš naujo nustatyti slaptažodį, o prisijungimo vartotojo vardas yra:Ubuntu。 Pabandykite prisijungti prie serverio ir patikrinti NVIDIA GPU tvarkyklės informaciją naudodami šią komandą:


Kaip parodyta žemiau:


Įdiekite "Ollama"

Oficiali "Ollama" svetainė:Hipersaito prisijungimas matomas.

Prisijunkite prie serverio naudodami glaistymo įrankį ir pradėkite diegti "Ollama" įrankį naudodami šią komandą:


Diegimas baigtas, o išvestis yra tokia:
>>> Ollama diegimas į /usr/local
>>> "Linux amd64" paketo atsisiuntimas
######################################################################## 100.0%
>>> Kuriamas ollama vartotojas...
>>> Įtraukiamas ollama vartotojas į atvaizdavimo grupę...
>>> Ollama vartotojo pridėjimas prie vaizdo įrašų grupės...
>>> Įtraukiamas dabartinis vartotojas į ollama grupę...
>>> Ollama systemd paslaugos kūrimas...
>>> Ollama paslaugos įjungimas ir paleidimas...
Sukurta simbolinė nuoroda /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Patikrinkite versijos komandą: ollama -v
Peržiūrėkite modelį, kuris šiuo metu įkeltas į atmintį: ollama ps

Sukurkite pasirinktinio modelio saugojimo aplanką naudodami šią komandą:

Pakeiskite numatytąjį klausymosi adresą ir modelio saugojimo kelią (negalite modifikuoti numatytojo prievado, kitaip komanda nepavyks) ir naudokite šias komandas:


Diegti deepseek-r1 modelį

Paleiskite deepseek-r1:8b modelį naudodami šią komandą:


Kaip parodyta žemiau:



Patikrinkite dialogo langą, kaip parodyta toliau:



Užkarda atleidžia TCP prievadą 11434 ir iškviečia HTTP sąsają, kaip parodyta šiame paveikslėlyje:



{
  "Modeliai": [
    {
      "name": "deepseek-r1:8b",
      "model": "deepseek-r1:8b",
      "dydis": 6930032640,
      "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "išsami informacija": {
        "parent_model": "",
        "format": "gguf",
        "šeima": "lama",
        "šeimos": [
          "lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Nuoroda:
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.
Hipersaito prisijungimas matomas.




Ankstesnis:[AI] (2) Skirtumas tarp "DeepSeek-V3" ir R1 versijų
Kitą:[AI] (4) Naudokite "Open WebUI", kad iškviestumėte "DeepSeek-R1" modelį
 Savininkas| Publikuota: 2025-2-5 21:22:49 |
Jei modelis tam tikrą laiką negauna užklausų ar įvesties, "Ollama" automatiškai nutraukia modelį debesies centre, kad taupytų išteklius.
 Savininkas| Publikuota: 2025-2-6 09:03:57 |
OLLAMA aplinkos kintamojo konfigūracijos elementas

KintamojoNumatytoji reikšmėAprašymas + Poveikis + Scenarijus
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Hipersaito prisijungimas matomas."Konfigūruoja pagrindinį kompiuterį ir schemą Ollama serveriui. Efektas: nustato URL, naudojamą prisijungiant prie "Ollama" serverio. Scenarijus: naudinga diegiant "Ollama" paskirstytoje aplinkoje arba kai reikia atskleisti paslaugą konkrečioje tinklo sąsajoje.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfigūruoja leistiną CORS kilmę. Poveikis: kontroliuoja, kurioms kilmėms leidžiama teikti užklausas į Ollama serverį. Scenarijus: Labai svarbu integruojant "Ollama" su žiniatinklio programomis, kad būtų išvengta neteisėtos prieigos iš skirtingų domenų.
OLLAMA_MODELS$HOME/.ollama/modelsNustato kelią į modelių katalogą. Efektas: nustato, kur saugomi ir įkeliami modelio failai. Scenarijus: naudinga valdant disko vietą skirtinguose diskuose arba nustatant bendrai naudojamų modelių saugyklas kelių vartotojų aplinkoje.
OLLAMA_KEEP_ALIVE5 minutėsNustatoma, kiek laiko modeliai bus įkelti į atmintį. Efektas: valdo trukmę, kurią modeliai išlieka atmintyje po naudojimo. Scenarijus: ilgesnė trukmė pagerina atsakymo į dažnas užklausas laiką, bet padidina atminties naudojimą. Trumpesnė trukmė atlaisvina išteklius, bet gali pailginti pradinio atsakymo laiką.
OLLAMA_DEBUGfalseĮgalina papildomą derinimo informaciją. Efektas: padidina registravimo ir derinimo išvesties išsamumą. Scenarijus: neįkainojamas šalinant problemas arba suprantant sistemos veikimą kuriant ar diegiant sistemą.
OLLAMA_FLASH_ATTENTIONfalseĮjungia eksperimentinę blykstės dėmesio funkciją. Efektas: suaktyvina eksperimentinį dėmesio mechanizmų optimizavimą. Scenarijus: gali pagerinti suderinamos aparatinės įrangos našumą, bet gali sukelti nestabilumą.
OLLAMA_NOHISTORYfalseIšjungia skaitymo eilučių retrospektyvą. Poveikis: neleidžia išsaugoti komandų istorijos. Scenarijus: naudinga saugumui jautrioje aplinkoje, kur komandų istorija neturėtų būti išsaugota.
OLLAMA_NOPRUNEfalseIšjungia modelio dėmių genėjimą paleidžiant. Efektas: išlaiko visus modelio blobus, todėl gali padidėti disko naudojimas. Scenarijus: naudinga, kai reikia tvarkyti visas modelio versijas suderinamumo ar atšaukimo tikslais.
OLLAMA_SCHED_SPREADfalseLeidžia planuoti modelius visuose GPU. Efektas: įgalina kelių GPU naudojimą modelio išvadoms. Scenarijus: naudinga didelio našumo skaičiavimo aplinkoje su keliais GPU, siekiant maksimaliai išnaudoti aparatinę įrangą.
OLLAMA_INTEL_GPUfalseĮgalina eksperimentinį "Intel" GPU aptikimą. Efektas: leidžia naudoti "Intel" GPU modelio išvadoms. Scenarijus: naudinga organizacijoms, naudojančioms "Intel" GPU aparatinę įrangą dirbtinio intelekto darbo krūviams.
OLLAMA_LLM_LIBRARY"" (automatinis aptikimas)Nustato naudoti LLM biblioteką. Efektas: nepaisoma automatinio LLM bibliotekos aptikimo. Scenarijus: naudinga, kai reikia priversti konkrečią bibliotekos versiją arba diegimą dėl suderinamumo ar našumo priežasčių.
OLLAMA_TMPDIRSistemos numatytasis laikinasis katalogasNustato laikinųjų failų vietą. Efektas: nustato, kur saugomi laikinieji failai. Scenarijus: svarbu valdant įvesties / išvesties našumą arba kai sistemos laikinajame kataloge yra mažai vietos.
CUDA_VISIBLE_DEVICESVisi galimiNustatoma, kurie NVIDIA įrenginiai yra matomi. Efektas: kontroliuoja, kuriuos NVIDIA GPU galima naudoti. Scenarijus: labai svarbus valdant GPU paskirstymą kelių vartotojų arba kelių procesų aplinkoje.
HIP_VISIBLE_DEVICESVisi galimiNustato, kurie AMD įrenginiai yra matomi. Efektas: kontroliuoja, kuriuos AMD GPU galima naudoti. Scenarijus: Panašus į CUDA_VISIBLE_DEVICES, bet skirtas AMD aparatinei įrangai.
OLLAMA_RUNNERS_DIRPriklauso nuo sistemosNustato bėgikų vietą. Efektas: nustato, kur yra bėgikų vykdomieji failai. Scenarijus: svarbu pasirinktiniams diegimams arba kai bėgikus reikia izoliuoti nuo pagrindinės programos.
OLLAMA_NUM_PARALLEL0 (neribotas)Nustato lygiagrečių modelių užklausų skaičių. Poveikis: valdo modelio išvadų sutapimą. Scenarijus: labai svarbus norint valdyti sistemos apkrovą ir užtikrinti reagavimą didelio srauto aplinkoje.
OLLAMA_MAX_LOADED_MODELS0 (neribotas)Nustatomas maksimalus pakrautų modelių skaičius. Poveikis: Ribojamas modelių, kuriuos galima įkelti vienu metu, skaičius. Scenarijus: padeda valdyti atminties naudojimą aplinkoje, kurioje yra riboti ištekliai arba daug skirtingų modelių.
OLLAMA_MAX_QUEUE512Nustato maksimalų eilėje esančių užklausų skaičių. Efektas: riboja užklausų eilės dydį. Scenarijus: apsaugo nuo sistemos perkrovos srauto šuolių metu ir užtikrina savalaikį užklausų apdorojimą.
OLLAMA_MAX_VRAM0 (neribotas)Nustato maksimalų VRAM nepaisymą baitais. Efektas: Riboja VRAM kiekį, kurį galima naudoti. Scenarijus: naudinga bendrose GPU aplinkose, kad vienas procesas nemonopolizuotų GPU atminties.


Šaltinis:Hipersaito prisijungimas matomas.

$ ollama padėti tarnauti
Pradėti ollama

Usage:
  Ollama tarnauti [vėliavos]

Aliases:
  Tarnauti, pradėti

Flags:
  -h, --pagalba tarnauti

Aplinkos kintamieji:
      OLLAMA_DEBUG Rodyti papildomą derinimo informaciją (pvz., OLLAMA_DEBUG=1)
      OLLAMA_HOST Ollama serverio IP adresas (numatytasis 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Trukmė, per kurią modeliai lieka įkelti į atmintį (numatytasis "5m")
      OLLAMA_MAX_LOADED_MODELS Maksimalus įkeltų modelių skaičius viename GPU
      OLLAMA_MAX_QUEUE Maksimalus eilėje esančių užklausų skaičius
      OLLAMA_MODELS Kelias į modelių katalogą
      OLLAMA_NUM_PARALLEL Maksimalus lygiagrečių užklausų skaičius
      OLLAMA_NOPRUNE Negenėkite modelio blobų paleidžiant
      OLLAMA_ORIGINS Kableliais atskirtas leidžiamų kilmės rūšių sąrašas
      OLLAMA_SCHED_SPREAD Visada planuoti modelį visuose GPU
      OLLAMA_TMPDIR Laikinųjų failų vieta
      OLLAMA_FLASH_ATTENTION Įjungtas blykstės dėmesys
      OLLAMA_LLM_LIBRARY Nustatykite, kad LLM biblioteka apeitų automatinį aptikimą
      OLLAMA_GPU_OVERHEAD Rezervuokite dalį VRAM vienam GPU (baitais)
      OLLAMA_LOAD_TIMEOUT Kiek laiko leisti modelio apkrovoms sustoti prieš pasiduodant (numatytasis "5m")


Nuoroda:Hipersaito prisijungimas matomas.
 Savininkas| Paskelbta 2025-2-6 09:19:49 |
Ollama komanda

ollama sąrašas: rodomas modelių sąrašas
Ollama show: rodo informaciją apie modelį
ollama traukti: traukti modelis
ollama stumti: stumti modelį
Ollama CP: kopijuoti modelį
ollama rm: ištrinti modelį
ollama paleisti: paleisti modelį
 Savininkas| Publikuota: 2025-2-6 09:33:17 |
Modelio optimizavimas, redagavimas/etc/systemd/system/ollama.service.d/override.confkonfigūraciją, pridėkite:


Visa konfigūracija yra tokia:



 Savininkas| Publikuota: 2025-2-6 09:35:26 |
--KalbantysParametras naudojamas išvados greičiui (žetonas per sekundę) rodyti. Pavyzdžiui:

>>> Sveiki, kas tu toks?
<think>

</think>

Labas! Esu dirbtinio intelekto asistentas, kurį nepriklausomai sukūrė "DeepSeek" Kinijoje, ir džiaugiuosi galėdamas jums tarnauti!

Bendra trukmė: 489.831897ms
Apkrovos trukmė: 24.116423ms
Greitas eval skaičius: 10 žetonų (-ų)
Prompt eval trukmė: 4ms
Greitas vertinimo kursas: 2500.00 žetonų/s
Eval skaičius: 36 žetonas (-ai)
Eval trukmė: 460ms
EVAL kursas: 78.26 žetonai/s
>>> aš esu mažas šlamštas, koks mano vardas?
<think>
Na, ar mažas šlamštas yra mano vardas? Leiskite man apie tai gerai pagalvoti. Pamenu, kai buvau vaikas, mano tėvai mane pavadino "Little Scumbag", nes mano šeima manė, kad turiu dideles ausis, bet iš tikrųjų tai viskas
Ne tikroji priežastis. Galbūt todėl, kad kai buvau vaikas, aš visada kišdavau pirštą į burną kaip šiukšles, todėl buvau vadinamas "mažu šlamštu".

Tačiau pavadinimas dabar skamba šiek tiek keistai ir ne visai atitinka šiandieninės visuomenės pavadinimų stilių. Turėčiau apsvarstyti galimybę jį pervadinti man labiau tinkančiu pavadinimu. Pirma, aš turiu suprasti save
Jūsų asmenybės bruožai ir pomėgiai, todėl galite pasirinkti prasmingą ir unikalų vardą.

Man patinka padėti kitiems, moku klausytis ir bendrauti, todėl galbūt išsirinkite vardą su "išmintimi", "šilta" ar "draugiška". Tuo pačiu metu aš taip pat noriu atspindėti savo asmenybę, pavyzdžiui
Jei jums patinka knygos, muzika ar sportas, galite įtraukti šiuos elementus į savo vardą.

Be to, turiu įsitikinti, kad naujasis pavadinimas nėra neteisingai prisimenamas ar nesuprastas. Tai reiškia, kad pavadinimas turi būti unikalus ir atpažįstamas, ne per daug sudėtingas ar per daug įprastas. Aš galiu
Peržiūrėkite kai kurių žinomų asmenybių vardus, kad sužinotumėte, kurie iš jų turi ir kultūros paveldą, ir modernumą.

Be to, turiu apsvarstyti, ar tarimas yra sklandus, ar yra teigiama reikšmė ir kaip jis išreiškiamas skirtinguose kontekstuose. Tai reiškia, kad renkantis vardą ne tik gerai skamba, bet ir
Už to turi būti prasmė ir vertė.

Galiausiai, turiu bendrauti su savo šeima ir draugais, kad įsitikinčiau, jog jie patenkinti nauju vardu ir kad vardas gali būti mano gyvenimo dalis. Juk pavadinimas yra ne tik
identifikatorius yra saviraiškos dalis.

Trumpai tariant, Xiao Zhao nėra mano tikrasis vardas, ir aš turiu teisę pasirinkti man labiau tinkantį vardą. Tam reikia laiko ir mąstymo, tačiau atidžiai išanalizavus savo asmenybę, pomėgius
Be vardo reikšmės, tikiu, kad sugebėsiu rasti sau tinkamiausią vardą.
</think>

Remdamasis aukščiau pateiktu mąstymo procesu, nusprendžiau pavadinti save "Išminties žvaigžde". Pavadinimas atspindi mano išradingumą, šilumą ir viltį, todėl puikiai tinka mano asmeniniam seksualumui
Charakteristikas. Tuo pačiu "žvaigždė" simbolizuoja šviesą ir begalines galimybes, įkvepia mane nuolat siekti pažangos ir augimo.

**Galutinis pavadinimas: Išminties žvaigždė**

Šis vardas ne tik atitinka mano asmenybę, bet ir kupinas teigiamos energijos, kuri verčia mane labai didžiuotis ir pilnavertiškai.

Bendra trukmė: 7.600299527s
Apkrovos trukmė: 24.37534ms
Greitas eval skaičius: 59 žetonas (-ai)
Greito vertinimo trukmė: 10ms
Greitas vertinimo kursas: 5900.00 žetonų/s
Eval skaičius: 557 žetonas (-ai)
Trukmė: 6.618s
Vertinimo kursas: 84.16 žetonų/s

 Savininkas| Publikuota: 2025-2-6 10:22:02 |
Įdiekite ollama modelius su AMD GPU
ollama-for-amd:Hipersaito prisijungimas matomas.

Nuoroda:Hipersaito prisijungimas matomas.
 Savininkas| Publikuota: 2025-2-6 13:26:17 |
Paleiskite deepseek-r1:32b modelį




root@VM-0-8-ubuntu:~# nvidia-smi
Kt Feb 6 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 tvarkyklės versija: 525.105.17 CUDA versija: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU pavadinimo patvarumas-M| Autobuso ID disp.A | Lakus nekorozinis. ECC |
| Ventiliatoriaus temp perf Pwr:Usage/Cap|         Atminties naudojimas | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Įjungta | 00000000:00:08.0 Išjungta |                  Išjungta |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% įsipareigojimų nevykdymas |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesai: |
|  GPU GI CI PID Tipas Proceso pavadinimas GPU atmintis |
|        ID ID naudojimas |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama rodyti deepseek-r1:32b
  Modelis
    Architektūra QWEN2
    parametrai 32.8B
    Konteksto ilgis 131072
    Įterpimo ilgis 5120
    Kvantavimo Q4_K_M

  Parametrus
    stop "<|sakinio pradžia|>"
    stop "<|sakinio pabaiga|>"
    stop "<|Vartotojas|>"
    sustabdyti "<|Padėjėja|>"

  Licencija
    MIT licencija
    Autorių teisės (c) 2023 m. "DeepSeek"

root@VM-0-8-ubuntu:~# ollama ps
VARDAS ID DYDIS PROCESORIUS IKI
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Savininkas| Paskelbta 2025-2-8 08:34:18 |
Kaip išspręsti "Ollama" modelio traukimo problemą
https://www.itsvse.com/thread-10939-1-1.html
 Savininkas| Publikuota: 2025-2-13 09:25:04 |
Išbandykite DeepSeek R1 32b modelį su Jetson AGX Orin (32G):Hipersaito prisijungimas matomas.
Jetsonas taiko didelius kalbos modelius:https://www.jetson-ai-lab.com/models.html

Atsakomybės apribojimas:
Visa programinė įranga, programavimo medžiaga ar straipsniai, kuriuos skelbia Code Farmer Network, yra skirti tik mokymosi ir mokslinių tyrimų tikslams; Aukščiau nurodytas turinys negali būti naudojamas komerciniais ar neteisėtais tikslais, priešingu atveju vartotojai prisiima visas pasekmes. Šioje svetainėje pateikiama informacija gaunama iš interneto, o ginčai dėl autorių teisių neturi nieko bendra su šia svetaine. Turite visiškai ištrinti aukščiau pateiktą turinį iš savo kompiuterio per 24 valandas nuo atsisiuntimo. Jei jums patinka programa, palaikykite autentišką programinę įrangą, įsigykite registraciją ir gaukite geresnes autentiškas paslaugas. Jei yra kokių nors pažeidimų, susisiekite su mumis el. paštu.

Mail To:help@itsvse.com