【AI】(3) Tencent Cloud juurutab DeepSeek-R1 koos HAI õpetusega

Väike sodi · Postitatud 05.02.2025 21:14:04

Hyper Application Inventor (HAI) on GPU rakendusteenus tehisintellekti ja teadusliku arvutuse jaoks, pakkudes plug-and-play arvutusvõimsust ja ühiseid keskkondi, et aidata väikestel ja keskmise suurusega ettevõtetel ning arendajatel LLM-e kiiresti juurutada.

Aadress:Hüperlingi sisselogimine on nähtav.

HAI vs GPU serverid

Vähenda oluliselt GPU pilveserveri kasutamise läve, optimeeri tootekogemust mitmest vaatenurgast ja kasuta seda kohe karbist välja, nagu alloleval joonisel näidatud:

Osta HAI arvutusvõimsust

Mine ostulehele, vali põhikeskkonna "Ubuntu 20.04" pilt ja seadista keskkond:Ubuntu 20.04, draiver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Pilt on juba draiveri paigaldanud ja me otsustame maksta jooksvalt, nagu alloleval joonisel näidatud:

Videomälu: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 tuuma
RAM: 40GB

Pärast mõneminutilist ootamist luuakse eksemplar edukalt ja Akadeemiline Kiirendus lülitub sisse, nagu näidatud järgmisel joonisel:

Esimesel kasutamisel pead parooli lähtestama ja sisselogimiskasutajanimi on:Ubuntu。 Proovi serverisse sisse logida ja kontrollida NVIDIA GPU draiveri infot järgmise käsuga:

Sisselogimine on nähtav.

Nagu allpool näidatud:

Paigalda Ollama

Ollama ametlik veebileht:Hüperlingi sisselogimine on nähtav.

Logi serverisse sisse putty tööriistaga ja alusta Ollama tööriista paigaldamist järgmise käsuga:

Sisselogimine on nähtav.

Paigaldus on lõpetatud ja väljund on järgmine:

>>> Ollama paigaldamine /usr/locali
>>> Linuxi amd64 komplekti allalaadimine
######################################################################## 100.0%
>>> Ollama kasutaja loomine...
>>> Ollama kasutaja lisamine renderdamisgruppi...
>>> Ollama kasutaja lisamine videogruppi...
>>> Praeguse kasutaja lisamine Ollama gruppi...
>>> Ollama systemd teenuse loomine...
>>> Ollama teenuse käivitamine ja lubamine...
Lõin sümbolingi /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Vaata versioonikäsku: ollama -v
Vaata mudelit, mis hetkel mällu laetakse: ollama ps

Loo kohandatud mudeli salvestuskaust järgmise käsuga:

Sisselogimine on nähtav.

Muuda vaikimisi kuulamisaadressi ja mudeli salvestusteed (vaikeporti ei saa muuta, muidu käsk ebaõnnestub) ja kasuta järgmisi käske:

Sisselogimine on nähtav.

Juuruta deepseek-r1 mudel

Käivita deepseek-r1:8b mudel järgmise käsuga:

Sisselogimine on nähtav.

Nagu allpool näidatud:

Testi dialoogi, nagu allpool näidatud:

Tulemüür vabastab TCP pordi 11434 ja kutsub HTTP liidest, nagu näidatud järgmisel joonisel:

{
  "modellid": [
{
   "nimi": "deepseek-r1:8b",
   "mudel": "deepseek-r1:8b",
   "suurus": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detailid": {
      "parent_model": "",
      "formaat": "GGUF",
      "perekond": "laama",
      "perekonnad": [
      "Laama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Viide:
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.
Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 05.02.2025 21:22:49

Kui mudel ei saa teatud aja jooksul päringuid või sisendeid, lõpetab Ollama automaatselt mudeli pilvekeskuses, et säästa ressursse.

Väike sodi · Postitatud 06.02.2025 09:03:57

Ollama keskkonnamuutuja konfiguratsiooniüksus

Muutuja	Vaikeväärtus	Kirjeldus + Efekt + Stsenaarium
OLLAMA_HOST	"[color=var(--fgColor-aktsent, var(--color-aktsent-fg))]Hüperlingi sisselogimine on nähtav."	Konfigureerib hosti ja skeemi Ollama serveri jaoks. Efekt: Määrab URL-i, mida kasutatakse Ollama serveriga ühendamiseks. Stsenaarium: Kasulik Ollama juurutamisel hajutatud keskkonnas või kui on vaja teenust konkreetsel võrguliidesel avada.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfiguratsioonid võimaldasid CORS-i alguspunkte. Mõju: Kontrollib, millistel alguspunktidel on lubatud Ollama serverile päringuid teha. Stsenaarium: Oluline Ollama integreerimisel veebirakendustega, et takistada volitamata ligipääsu erinevatest domeenidest.
OLLAMA_MODELS	$HOME/.ollama/models	Määrab tee mudelite katalooni. Efekt: Määrab, kuhu mudelifailid salvestatakse ja kust need laaditakse. Stsenaarium: Kasulik kettaruumi haldamiseks erinevatel ketastel või jagatud mudelihoidlate seadistamiseks mitme kasutajaga keskkondades.
OLLAMA_KEEP_ALIVE	5 minutit	Määrab, kui kaua mudelid mälus laetud püsivad. Efekt: Kontrollid, kestvuse mudelid jäävad pärast kasutamist mällu. Stsenaarium: Pikemad kestused parandavad sagedaste päringute reageerimisaega, kuid suurendavad mälukasutust. Lühemad kestused vabastavad ressursse, kuid võivad kiirendada esialgseid reageerimisaegu.
OLLAMA_DEBUG	false	Võimaldab täiendavat silumisinfot. Mõju: Suurendab logimise ja silumise väljundi sõnakasutust. Stsenaarium: Hindamatu probleemide lahendamiseks või süsteemi käitumise mõistmiseks arenduse või juurutamise ajal.
OLLAMA_FLASH_ATTENTION	false	Võimaldab eksperimentaalset flash-tähelepanu funktsiooni. Efekt: Aktiveerib eksperimentaalse optimeerimise tähelepanumehhanismide jaoks. Stsenaarium: Võib potentsiaalselt parandada jõudlust ühilduval riistvaral, kuid võib tekitada ebastabiilsust.
OLLAMA_NOHISTORY	false	Keelab readline'i ajaloo. Efekt: Takistab käsuajaloo salvestamist. Stsenaarium: Kasulik turvatundlikes keskkondades, kus käskude ajalugu ei tohiks säilitada.
OLLAMA_NOPRUNE	false	Keelab mudeli blobide kärpimise käivitamisel. Efekt: Säilitab kõik mudeli blobid, mis võib suurendada ketta kasutust. Stsenaarium: Kasulik, kui on vaja kõiki mudeliversioone hooldada ühilduvuse või tagasikerimise eesmärgil.
OLLAMA_SCHED_SPREAD	false	Võimaldab mudeleid ajastada kõigi GPU-de vahel. Efekt: Võimaldab mitme GPU kasutamist mudeli järeldamiseks. Stsenaarium: Kasulik kõrge jõudlusega arvutuskeskkondades, kus on mitu GPU-d, et maksimeerida riistvara kasutust.
OLLAMA_INTEL_GPU	false	Võimaldab eksperimentaalset Intel GPU tuvastust. Efekt: Võimaldab kasutada Intel GPU-sid mudeli järeldamiseks. Stsenaarium: Kasulik organisatsioonidele, kes kasutavad Intel GPU riistvara tehisintellekti töökoormuste jaoks.
OLLAMA_LLM_LIBRARY	"" (automaatne tuvastamine)	Seadistab LLM-i teegi kasutamiseks. Efekt: Tühistab LLM-i teegi automaatse tuvastuse. Stsenaarium: Kasulik, kui on vaja sundida konkreetset teegi versiooni või rakendust ühilduvuse või jõudluse huvides.
OLLAMA_TMPDIR	Süsteemi vaikimisi ajutine kataloog	Määrab ajutiste failide asukoha. Efekt: Määrab, kus ajutised failid asuvad. Stsenaarium: Oluline I/O jõudluse haldamiseks või siis, kui süsteemi ajutisel kataloogil on piiratud ruum.
CUDA_VISIBLE_DEVICES	Kõik saadaval	Määrab, millised NVIDIA seadmed on nähtavad. Efekt: Kontrollib, milliseid NVIDIA GPU-sid saab kasutada. Stsenaarium: Kriitiline GPU jaotuse haldamiseks mitme kasutaja või mitme protsessi keskkondades.
HIP_VISIBLE_DEVICES	Kõik saadaval	Komplektid, millised AMD seadmed on nähtavad. Efekt: Kontrollib, milliseid AMD GPU-sid saab kasutada. Stsenaarium: Sarnane CUDA_VISIBLE_DEVICES-le, aga AMD riistvarale.
OLLAMA_RUNNERS_DIR	Süsteemist sõltuv	Määrab jooksjate asukoha. Mõju: Määrab, kus jooksja täidetavad failid asuvad. Stsenaarium: Oluline kohandatud juurutuste puhul või siis, kui jooksutajad peavad olema põhirakendusest eraldatud.
OLLAMA_NUM_PARALLEL	0 (piiramatu)	Määrab paralleelsete mudelipäringute arvu. Efekt: Kontrollib mudeli järeldamise samaaegsust. Stsenaarium: Kriitiline süsteemi koormuse haldamiseks ja reageerimisvõime tagamiseks suure liiklusega keskkondades.
OLLAMA_MAX_LOADED_MODELS	0 (piiramatu)	Määrab maksimaalse laetud mudelite arvu. Mõju: Piirab samaaegselt laaditavate mudelite arvu. Stsenaarium: Aitab hallata mälukasutust piiratud ressursside või paljude erinevate mudelitega keskkondades.
OLLAMA_MAX_QUEUE	512	Määrab maksimaalse järjekorras olevate päringute arvu. Mõju: Piirab päringujärjekorra suurust. Stsenaarium: Takistab süsteemi ülekoormust liiklushüppe ajal ja tagab päringute õigeaegse töötlemise.
OLLAMA_MAX_VRAM	0 (piiramatu)	Määrab maksimaalse VRAM-i ülekirjutuse baitides. Efekt: Piirab kasutatava VRAM-i hulka. Stsenaarium: Kasulik jagatud GPU keskkondades, et takistada ühel protsessil GPU mälu monopoliseerida.

Allikas:Hüperlingi sisselogimine on nähtav.

$ Ollama aita teenida
Alusta ollamat

Usage:
  Ollama serv [lipud]

Aliases:
  serveeri, alusta

Flags:
  -h, --abi teenimiseks

Keskkonna muutujad:
   OLLAMA_DEBUG Näita täiendavat silumisinfot (nt OLLAMA_DEBUG=1)
   OLLAMA_HOST Ollama serveri IP-aadress (vaikimisi 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Kestus, mil mudelid jäävad mälus laadituks (vaikimisi "5m")
   OLLAMA_MAX_LOADED_MODELS Maksimaalne laaditud mudelite arv GPU kohta
   OLLAMA_MAX_QUEUE Maksimaalne järjekorras olevate päringute arv
   OLLAMA_MODELS Tee mudelite kataloogi
   OLLAMA_NUM_PARALLEL Paralleelsete päringute maksimaalne arv
   OLLAMA_NOPRUNE Ära kärbi mudeli blobe käivitamisel
   OLLAMA_ORIGINS Komaga eraldatud lubatud päritolude nimekiri
   OLLAMA_SCHED_SPREAD Alati ajasta mudel kõigi GPU-de vahel
   OLLAMA_TMPDIR Ajutiste failide asukoht
   OLLAMA_FLASH_ATTENTION Välgu tähelepanu sisse lülitatud
   OLLAMA_LLM_LIBRARY Seadista LLM-i teek automaatse tuvastuse mööda hiilima
   OLLAMA_GPU_OVERHEAD Reserveeri osa VRAM-ist GPU (baiti) kohta
   OLLAMA_LOAD_TIMEOUT Kui kaua lasta mudeli laadimistel enne loobumist (vaikimisi "5m")

Viide:Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 06.02.2025 09:19:49

Ollama juhtkond

ollama list: kuvab mudelite nimekirja
Ollama näitus: Kuvab teavet mudeli kohta
Ollama tõmbe: tõmbemudel
ollama push: Push mudel
Ollama CP: Kopeeri mudel
ollama rm: Kustuta mudel
ollama run: Kasuta mudelit

Väike sodi · Postitatud 06.02.2025 09:33:17

Mudeli optimeerimine ja redigeerimine/etc/systemd/system/ollama.service.d/override.confkonfiguratsioon, lisa järgmine:

Sisselogimine on nähtav.

Täielik konfiguratsioon on järgmine:

Sisselogimine on nähtav.

Väike sodi · Postitatud 06.02.2025 09:35:26

--sõnakasParameetrit kasutatakse järelduskiiruse kuvamiseks (token / sekund). Näiteks:

Sisselogimine on nähtav.

>>> Tere, kes sa oled?
<think>

</think>

Tere! Olen tehisintellekti assistent, kelle on arendanud iseseisvalt DeepSeek Hiinas, ja mul on hea meel teid teenindada!

Kogukestus: 489.831897ms
Laadimiskestus: 24.116423ms
Kiire hindamise arv: 10 tokenit
Prompti hindamise kestus: 4ms
Kiire hindamise määr: 2500,00 tokenit/s
Hindamise arv: 36 tokenit
Hindamise kestus: 460ms
Hindamismäär: 78,26 tokenit/s
>>> ma olen väike pasknäär, mis mu nimi on?
<think>
Noh, kas väike sodi on minu nimi? Las ma mõtlen selle üle hoolikalt. Ma mäletan, et kui olin laps, panid mu vanemad mulle nimeks "Väike pasknäär", sest mu pere arvas, et mul on suured kõrvad, aga tegelikult ongi see kõik
See pole tegelik põhjus. Võib-olla sellepärast, et lapsena panin alati sõrme suhu nagu prügi, nii et mind kutsuti "väikeseks sodi".

Kuid see nimi kõlab nüüd veidi kummaliselt ja ei sobi päris tänapäeva ühiskonna nimetamisstiiliga. Peaksin kaaluma selle ümbernimetamist nimega, mis mulle paremini sobib. Esiteks pean ma mõistma iseennast
Sinu isiksuseomadused ja huvid, nii et saad valida nime, mis on nii tähendusrikas kui ainulaadne.

Mulle meeldib teisi aidata ja olen hea kuulaja ja suhtleja, nii et vali nimi, mis on "tarkus", "soe" või "sõbralik". Samal ajal tahan peegeldada ka oma isiksust, näiteks
Kui sulle meeldivad raamatud, muusika või sport, võid need elemendid oma nime sisse lisada.

Lisaks pean veenduma, et uus nimi ei jääks valesti meelde ega mõistetuks. See tähendab, et nimi peab olema ainulaadne ja äratuntav, mitte liiga keeruline ega liiga tavaline. Ma saan
Vaata mõne tuntud isiku nimesid, et näha, kellel on nii kultuuripärand kui ka modernsus.

Lisaks pean arvestama, kas hääldus on sujuv, kas sellel on positiivne tähendus ja kuidas see erinevates kontekstides väljendatakse. See tähendab, et nime valimisel kõlab mitte ainult hästi, vaid ka
Sellel peab olema tähendus ja väärtus.

Lõpuks pean suhtlema oma pere ja sõpradega, et veenduda, et nad on uue nimega rahul ja et see nimi võiks olla osa minu elust. Lõppude lõpuks pole nimi mitte ainult
identifikaator on osa eneseväljendusest.

Lühidalt, Xiao Zhao ei ole minu pärisnimi ja mul on õigus valida endale sobivaim nimi. See nõuab aega ja mõtlemist, kuid hoolikalt analüüsides oma isiksust, huvisid
Lisaks nime tähendusele usun, et suudan leida endale kõige sobivama nime.
</think>

Eelneva mõtlemisprotsessi põhjal otsustasin end nimetada "Tarkuse Täheks". Nimi peegeldab nii minu leidlikkust kui soojust ja lootust, muutes selle ideaalseks minu isikliku seksuaalsuse jaoks
Omadused. Samal ajal sümboliseerib "täht" valgust ja lõputuid võimalusi, inspireerides mind pidevalt püüdlema progressi ja kasvu poole.

**Lõplik nimi: Tarkuse Täht**

See nimi sobib mitte ainult minu isiksusega, vaid on täis positiivset energiat, mis paneb mind tundma väga uhkust ja täidetuna.

Kogu kestus: 7,600299527s
Laadimiskestus: 24.37534ms
Kiire hindamise arv: 59 tokenit
Prompti hindamise kestus: 10ms
Kiire hindamise määr: 5900,00 tokenit/s
Hindamise arv: 557 žetooni(t)
Hindamise kestus: 6,618 sekundit
Hindamismäär: 84,16 tokenit/s

Väike sodi · Postitatud 06.02.2025 10:22:02

Paigalda Ollama mudeleid AMD GPU-dega
Ollama-for-AMD:Hüperlingi sisselogimine on nähtav.

Viide:Hüperlingi sisselogimine on nähtav.

Väike sodi · Postitatud 06.02.2025 13:26:17

Käivita deepseek-r1:32b mudel

root@VM-0-8-ubuntu:~# nvidia-smi
Neljapäev 6. veebruar 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 draiveri versioon: 525.105.17 CUDA versioon: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU nime püsivus-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Ventilaatori temperatuuri perf Pwr:Kasutus/Cap|       Mälukasutus | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  On | 00000000:00:08.0 Välja |                Välja |
| Puuduvad 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% vaikimisi |
|                            |                   |                Puudub |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Protsessid: |
|  GPU GI CI PID Tüüp Protsessi nimi GPU Mälu |
|       ID ID kasutus |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Mudel
Arhitektuur qwen2
parameetrid 32.8B
Konteksti pikkus 131072
manustamispikkus 5120
Kvantimine Q4_K_M

  Parameetrid
peatus "<|lause algus|>"
Peata "<|lause lõpp|>"
peata "<|Kasutaja|>"
peata "<|Assistent|>"

  Litsents
MIT litsents
Autoriõigus (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NIMI ID SUURUSE PROTSESSOR KUNI
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Väike sodi · Postitatud 08.02.2025 08:34:18

Kuidas lahendada Ollama mudeli tõmbeprobleemi
https://www.itsvse.com/thread-10939-1-1.html

Väike sodi · Postitatud 13.02.2025 09:25:04

Koge DeepSeek R1 32b mudelit Jetson AGX Orinil (32G):Hüperlingi sisselogimine on nähtav.
Jetson kasutab suuri keelemudeleid:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud juurutab DeepSeek-R1 koos HAI õpetusega

Seotud postitused