【AI】(3) Tencent Cloud nasadzuje DeepSeek-R1 s tutoriálom HAI

Malý · Zverejnené 5. 2. 2025 21:14:04

Hyper Application Inventor (HAI) je aplikačný produkt pre GPU pre AI a vedecké výpočty, ktorý poskytuje plug-and-play výpočtový výkon a spoločné prostredia, ktoré pomáhajú malým a stredným podnikom a vývojárom rýchlo nasadiť LLM.

Adresa:Prihlásenie na hypertextový odkaz je viditeľné.

HAI vs GPU servery

Výrazne znížiť prah používania GPU cloudových serverov, optimalizovať zážitok z viacerých uhlov a používať ho hneď po vybalení, ako je znázornené na obrázku nižšie:

Nákup výpočtového výkonu HAI

Prejdite na stránku nákupu, vyberte základný obrázok prostredia "Ubuntu 20.04" a nastavte prostredie:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Obrázok nám už nainštaloval ovládač a my sa rozhodli platiť priebežne, ako je znázornené na obrázku nižšie:

Video pamäť: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 jadier
RAM: 40GB

Po niekoľkých minútach je inštancia úspešne vytvorená a zapnutá akademická akcelerácia, ako je znázornené na nasledujúcom obrázku:

Pri prvom použití je potrebné resetovať heslo a prihlasovacie meno je:Ubuntu。 Skúste sa prihlásiť na server a skontrolovať informácie o ovládači NVIDIA GPU pomocou nasledujúceho príkazu:

Prihlásenie je viditeľné.

Ako je uvedené nižšie:

Inštalujte Ollamu

Oficiálna webová stránka Ollama:Prihlásenie na hypertextový odkaz je viditeľné.

Prihláste sa na server pomocou nástroja na tmelenie a začnite inštalovať nástroj Ollama nasledujúcim príkazom:

Prihlásenie je viditeľné.

Inštalácia je dokončená a výstup je nasledovný:

>>> Inštalácia ollama na /usr/local
>>> Sťahovanie balíka pre Linux amd64
######################################################################## 100.0%
>>> Vytváranie používateľa ollama...
>>> Pridanie používateľa ollama do renderovacej skupiny...
>>> Pridávanie používateľa ollama do video skupiny...
>>> Pridávanie aktuálneho používateľa do skupiny ollama...
>>> Vytvorenie ollama systemd service...
>>> Spúšťanie a spustenie služby ollama...
Vytvorený symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Pozri si príkaz na verziu: ollama -v
Pozrite si model, ktorý je momentálne načítaný v pamäti: ollama ps

Vytvorte vlastný úložný priečinok modelu pomocou nasledujúceho príkazu:

Prihlásenie je viditeľné.

Upravte predvolenú adresu počúvania a cestu k ukladaniu modelu (predvolený port nemôžete upraviť, inak príkaz zlyhá) a použite nasledujúce príkazy:

Prihlásenie je viditeľné.

Nasadenie modelu deepseek-r1

Spustite model deepseek-r1:8b s nasledujúcim príkazom:

Prihlásenie je viditeľné.

Ako je uvedené nižšie:

Otestujte dialóg podľa nižšie:

Firewall uvoľní TCP port 11434 a volá HTTP rozhranie, ako je znázornené na nasledujúcom obrázku:

{
  "modelky": [
{
   "meno": "deepseek-r1:8b",
   "Model": "Deepseek-R1:8B",
   "veľkosť": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "details": {
      "parent_model": "",
      "Format": "Gguf",
      "rodina": "lama",
      "rodiny": [
      "Lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referencia:
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.

Malý · Zverejnené 5. 2. 2025 21:22:49

Ak model nedostáva požiadavky alebo vstupy po určitý čas, Ollama automaticky ukončí model v cloudovom centre, aby ušetrila zdroje.

Malý · Zverejnené 6. 2. 2025 9:03:57

Ollama Environment Variable Configuration Item

Premenná	Predvolená hodnota	Popis + Efekt + Scenár
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Prihlásenie na hypertextový odkaz je viditeľné."	Konfiguruje hostiteľa a schému pre server Ollama. Efekt: Určuje URL adresu používanú na pripojenie k serveru Ollama. Scenár: Užitočné pri nasadzovaní Ollama v distribuovanom prostredí alebo keď potrebujete sprístupniť službu na konkrétnom sieťovom rozhraní.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfiguruje povolené pôvody pre CORS. Efekt: Kontroluje, ktoré pôvody môžu posielať požiadavky na server Ollama. Scenár: Kľúčové pri integrácii Ollama s webovými aplikáciami, aby sa zabránilo neoprávnenému prístupu z rôznych domén.
OLLAMA_MODELS	$HOME/.ollama/models	Nastaví cestu do adresára modelov. Efekt: Určuje, odkiaľ sa ukladajú a načítavajú súbory modelov. Scenár: Užitočné pri správe diskového priestoru na rôznych diskoch alebo pri nastavovaní zdieľaných modelových repozitárov v prostredí s viacerými užívateľmi.
OLLAMA_KEEP_ALIVE	5 minút	Nastavuje, ako dlho zostávajú modely načítané v pamäti. Efekt: Kontroluje, že modely trvania zostávajú v pamäti po použití. Scenár: Dlhšie trvanie zlepšuje časy reakcie na časté dotazy, ale zvyšuje spotrebu pamäte. Kratšie trvanie uvoľňuje zdroje, ale môže predĺžiť počiatočné reakčné časy.
OLLAMA_DEBUG	false	Umožňuje ďalšie informácie na ladenie. Efekt: Zvyšuje rozvláčnosť logovania a ladenia výstupu. Scenár: Neoceniteľné pri riešení problémov alebo pochopení správania systému počas vývoja či nasadenia.
OLLAMA_FLASH_ATTENTION	false	Umožňuje experimentálnu schopnosť flash attention (Experimentálna záblesk pozornosti). Efekt: Aktivuje experimentálnu optimalizáciu mechanizmov pozornosti. Scenár: Môže potenciálne zlepšiť výkon na kompatibilnom hardvéri, ale môže priniesť nestabilitu.
OLLAMA_NOHISTORY	false	Vypína históriu čítania riadkov. Efekt: Zabraňuje uloženiu histórie príkazov. Scenár: Užitočné v bezpečnostne citlivých prostrediach, kde by sa história príkazov nemala uchovávať.
OLLAMA_NOPRUNE	false	Vypína orezávanie modelových blobov pri štarte. Efekt: Zachováva všetky modelové bloby, čo môže zvýšiť využitie disku. Scenár: Užitočné, keď potrebujete udržiavať všetky verzie modelov kvôli kompatibilite alebo návratu späť do minulosti.
OLLAMA_SCHED_SPREAD	false	Umožňuje plánovanie modelov naprieč všetkými GPU. Efekt: Umožňuje využitie viacerých GPU pre modelovú inferenciu. Scenár: Výhodné vo vysokovýkonných výpočtových prostrediach s viacerými GPU na maximalizáciu využitia hardvéru.
OLLAMA_INTEL_GPU	false	Umožňuje experimentálnu detekciu Intel GPU. Efekt: Umožňuje použitie Intel GPU na modelové inferencie. Scenár: Užitočné pre organizácie využívajúce hardvér Intel GPU pre AI pracovné zaťaženia.
OLLAMA_LLM_LIBRARY	"" (automatické detekovanie)	Nastaví knižnicu LLM na použitie. Efekt: Prepisuje automatickú detekciu knižnice LLM. Scenár: Užitočné, keď potrebujete vynútiť konkrétnu verziu alebo implementáciu knižnice kvôli kompatibilite alebo výkonu.
OLLAMA_TMPDIR	Systémový predvolený dočasný adresár	Nastavuje polohu pre dočasné súbory. Efekt: Určuje, kde sú dočasné súbory uložené. Scenár: Dôležité pre riadenie výkonu I/O alebo keď má systémový dočasný adresár obmedzený priestor.
CUDA_VISIBLE_DEVICES	Všetky dostupné	Nastavuje, ktoré NVIDIA zariadenia sú viditeľné. Efekt: Ovláda, ktoré NVIDIA GPU je možné použiť. Scenár: Kritické pre správu prideľovania GPU v prostredí s viacerými užívateľmi alebo viacerými procesmi.
HIP_VISIBLE_DEVICES	Všetky dostupné	Nastavuje, ktoré AMD zariadenia sú viditeľné. Efekt: Ovláda, ktoré AMD GPU je možné použiť. Scenár: Podobné ako CUDA_VISIBLE_DEVICES, ale pre AMD hardvér.
OLLAMA_RUNNERS_DIR	Závislosť od systému	Nastavuje polohu pre bežcov. Efekt: Určuje, kde sa nachádzajú spustiteľné súbory runnerov. Scenár: Dôležité pri vlastných nasadeniach alebo keď je potrebné bežcov izolovať od hlavnej aplikácie.
OLLAMA_NUM_PARALLEL	0 (neobmedzené)	Nastavuje počet požiadaviek na paralelný model. Efekt: Reguluje súbežnosť modelovej inferencie. Scenár: Kľúčové pre riadenie záťaže systému a zabezpečenie pohotovosti v prostredí s vysokou premávkou.
OLLAMA_MAX_LOADED_MODELS	0 (neobmedzené)	Nastavuje maximálny počet naložených modelov. Efekt: Obmedzuje počet modelov, ktoré môžu byť načítané súčasne. Scenár: Pomáha riadiť využitie pamäte v prostrediach s obmedzenými zdrojmi alebo mnohými rôznymi modelmi.
OLLAMA_MAX_QUEUE	512	Nastavuje maximálny počet zaradených požiadaviek. Efekt: Obmedzuje veľkosť fronty požiadaviek. Scenár: Zabraňuje preťaženiu systému počas dopravných špičk a zabezpečuje včasné spracovanie požiadaviek.
OLLAMA_MAX_VRAM	0 (neobmedzené)	Nastavuje maximálny override VRAM v bajtoch. Efekt: Obmedzuje množstvo VRAM, ktoré je možné použiť. Scenár: Užitočné v zdieľaných GPU prostrediach na zabránenie tomu, aby jeden proces monopolizoval GPU pamäť.

Zdroj:Prihlásenie na hypertextový odkaz je viditeľné.

$ ollama pomôcť podať
Start ollama

Usage:
  Ollama podáva [vlajky]

Aliases:
  Podávaj, štartuj

Flags:
  -h, --pomoc, pomoc pri podávaní

Premenné:
   OLLAMA_DEBUG Zobraziť dodatočné informácie o ladení (napr. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP adresa pre ollama server (predvolené 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Dĺžka, počas ktorej modely zostávajú načítané v pamäti (predvolene "5m")
   OLLAMA_MAX_LOADED_MODELS Maximálny počet načítaných modelov na GPU
   OLLAMA_MAX_QUEUE Maximálny počet zaradených požiadaviek
   OLLAMA_MODELS Cesta k adresáru modelov
   OLLAMA_NUM_PARALLEL Maximálny počet paralelných požiadaviek
   OLLAMA_NOPRUNE Neorezávajte modelové bloby pri štarte
   OLLAMA_ORIGINS Zoznam povolených počiatkov oddelený čiarkou
   OLLAMA_SCHED_SPREAD Vždy plánujte model pre všetky GPU
   OLLAMA_TMPDIR Umiestnenie dočasných súborov
   OLLAMA_FLASH_ATTENTION Zapnuté flash attention
   OLLAMA_LLM_LIBRARY Nastavte knižnicu LLM tak, aby obchádzala automatickú detekciu
   OLLAMA_GPU_OVERHEAD Rezervovať časť VRAM na GPU (bajty)
   OLLAMA_LOAD_TIMEOUT Ako dlho nechať zaťaženie modelu zastaviť sa pred vzdaním (predvolené "5m")

Referencia:Prihlásenie na hypertextový odkaz je viditeľné.

Malý · Zverejnené 6. 2. 2025 9:19:49

Velenie Ollama

Zoznam ollama: Zobrazuje zoznam modelov
Ollama show: Zobrazuje informácie o modeli
Ollama pull: pull model
ollama push: Push model
Ollama CP: Kopírovať model
ollama rm: Delete a model
ollama run: Run a model

Malý · Zverejnené 6. 2. 2025 9:33:17

Optimalizácia modelu, úprava/etc/systemd/system/ollama.service.d/override.confKonfigurácia, pridajte nasledujúce:

Prihlásenie je viditeľné.

Kompletná konfigurácia je nasledovná:

Prihlásenie je viditeľné.

Malý · Zverejnené 6. 2. 2025 9:35:26

--PodrobnéTento parameter sa používa na zobrazenie rýchlosti inferencie (token / sekunda). Napríklad:

Prihlásenie je viditeľné.

>>> Dobrý deň, kto ste?
<think>

</think>

Dobrý deň! Som AI asistent nezávisle vyvinutý spoločnosťou DeepSeek v Číne a rád vám môžem slúžiť!

Celková dĺžka: 489.831897 ms
Trvanie zaťaženia: 24.116423ms
Počet hodnotení promptu: 10 token(ov)
Trvanie hodnotenia promptu: 4 ms
Rýchlosť promptného hodnotenia: 2500,00 tokenov/s
Počet hodnotení: 36 token(ov)
Dĺžka hodnotenia: 460 ms
Hodnotiaca rýchlosť: 78,26 tokenov/s
>>> som malý, ako sa volám?
<think>
No, je moje meno, malý? Nechám si to dobre premyslieť. Pamätám si, že keď som bol dieťa, rodičia ma volali "Malý", pretože si rodina myslela, že mám veľké uši, ale v skutočnosti to bolo všetko
Nie skutočný dôvod. Možno je to tým, že keď som bol dieťa, vždy som si dával prst do úst ako odpad, takže ma volali "malá špina".

Avšak názov dnes znie trochu zvláštne a nezodpovedá štýlu pomenovania dnešnej spoločnosti. Mal by som zvážiť premenovanie na meno, ktoré mi viac vyhovuje. Najprv potrebujem pochopiť seba samého
Vaše osobnostné črty a záujmy, takže si môžete vybrať meno, ktoré je zároveň významné a jedinečné.

Rád pomáham druhým a som dobrý v počúvaní a komunikácii, takže možno vyber meno s "múdrosťou", "teplým" alebo "priateľským". Zároveň chcem odrážať aj svoju osobnosť, napríklad
Ak máte radi knihy, hudbu alebo šport, môžete tieto prvky zakomponovať do svojho mena.

Navyše musím zabezpečiť, aby nové meno nebolo zle zapamätané alebo nepochopené. To znamená, že meno musí byť jedinečné a rozpoznateľné, nie príliš zložité alebo príliš obyčajné. Môžem
Pozrite si mená niektorých známych osobností, aby ste videli, ktoré majú zároveň kultúrne dedičstvo aj modernosť.

Okrem toho musím zvážiť, či je výslovnosť plynulá, či má pozitívny význam a ako sa vyjadruje v rôznych kontextoch. To znamená, že pri výbere mena nielenže znie dobre, ale aj
Musí za tým byť zmysel a hodnota.

Nakoniec musím komunikovať s rodinou a priateľmi, aby som sa uistil, že sú spokojní s novým menom a že meno môže byť súčasťou môjho života. Napokon, názov nie je len
identifikátor je súčasťou sebavyjadrenia.

Stručne povedané, Xiao Zhao nie je moje skutočné meno a mám právo vybrať si meno, ktoré mi viac vyhovuje. Vyžaduje to čas a premýšľanie, ale dôkladnou analýzou svojej osobnosti a záujmov
Okrem významu mena verím, že nájdem najvhodnejšie meno pre seba.
</think>

Na základe vyššie uvedeného procesu som sa rozhodol pomenovať sa "Hviezda múdrosti". Meno odráža moju vynaliezavosť, teplo a nádej, vďaka čomu dokonale zapadá do mojej osobnej sexuality
Charakteristika. Zároveň "hviezda" symbolizuje svetlo a nekonečné možnosti, čo ma inšpiruje neustále usilovať o pokrok a rast.

**Finálny názov: Hviezda múdrosti**

Toto meno nielenže zodpovedá mojej osobnosti, ale je aj plné pozitívnej energie, ktorá ma robí veľmi hrdým a naplneným.

Celková dĺžka: 7.600299527s
Trvanie zaťaženia: 24,37534ms
Počet promptných hodnotení: 59 token(ov)
Trvanie hodnotenia promptu: 10 ms
Rýchlosť promptného hodnotenia: 5900,00 tokenov/s
Počet hodnotení: 557 žetónov
Trvanie hodnotenia: 6,618 s
Hodnotiaca rýchlosť: 84,16 tokenov/s

Malý · Zverejnené 6. 2. 2025 10:22:02

Nasadzujte modely ollama s AMD GPU
Ollama-for-AMD:Prihlásenie na hypertextový odkaz je viditeľné.

Referencia:Prihlásenie na hypertextový odkaz je viditeľné.

Malý · Zverejnené 6. 2. 2025 13:26:17

Spustite model deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Št 6. februára 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Verzia ovládača: 525.105.17 CUDA Verzia: 12.0 |
|-------------------------------+----------------------+----------------------+
| Meno GPU Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Teplota ventilátora Výkonnosť Pwr:Použitie/Cap|       Využitie pamäte | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Na | 0000000:00:08.0 Vypnuté |                Vypnuté |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% predvolené |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesy: |
|  GPU GI CI PID Názov procesu GPU Pamäť |
|       Použitie ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
Architektúra Qwen2
parametre 32.8B
Dĺžka kontextu 131072
Dĺžka vkladania 5120
Q4_K_M kvantizácie

  Parametre
stop "<|začiatok vety|>"
Stop "<|koniec vety|>"
stop "<|User|>"
stop "<|Asistent|>"

  Licencia
Licencia MIT
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NÁZOV ID VEĽKOSŤ PROCESORA AŽ DO
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Malý · Zverejnené 8. 2. 2025 8:34:18

Ako vyriešiť problém ťahania modelu Ollama
https://www.itsvse.com/thread-10939-1-1.html

Malý · Zverejnené 13. 2. 2025 9:25:04

Zažite model DeepSeek R1 32b na Jetson AGX Orin (32G):Prihlásenie na hypertextový odkaz je viditeľné.
Jetson spúšťa veľké jazykové modely:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud nasadzuje DeepSeek-R1 s tutoriálom HAI

Súvisiace príspevky