Tento článok je zrkadlovým článkom o strojovom preklade, kliknite sem pre prechod na pôvodný článok.

Pohľad: 2394|Odpoveď: 10

【AI】(3) Tencent Cloud nasadzuje DeepSeek-R1 s tutoriálom HAI

[Kopírovať odkaz]
Zverejnené 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) je aplikačný produkt pre GPU pre AI a vedecké výpočty, ktorý poskytuje plug-and-play výpočtový výkon a spoločné prostredia, ktoré pomáhajú malým a stredným podnikom a vývojárom rýchlo nasadiť LLM.

Adresa:Prihlásenie na hypertextový odkaz je viditeľné.

HAI vs GPU servery

Výrazne znížiť prah používania GPU cloudových serverov, optimalizovať zážitok z viacerých uhlov a používať ho hneď po vybalení, ako je znázornené na obrázku nižšie:



Nákup výpočtového výkonu HAI

Prejdite na stránku nákupu, vyberte základný obrázok prostredia "Ubuntu 20.04" a nastavte prostredie:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Obrázok nám už nainštaloval ovládač a my sa rozhodli platiť priebežne, ako je znázornené na obrázku nižšie:



Video pamäť: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 jadier
RAM: 40GB

Po niekoľkých minútach je inštancia úspešne vytvorená a zapnutá akademická akcelerácia, ako je znázornené na nasledujúcom obrázku:



Pri prvom použití je potrebné resetovať heslo a prihlasovacie meno je:Ubuntu。 Skúste sa prihlásiť na server a skontrolovať informácie o ovládači NVIDIA GPU pomocou nasledujúceho príkazu:


Ako je uvedené nižšie:


Inštalujte Ollamu

Oficiálna webová stránka Ollama:Prihlásenie na hypertextový odkaz je viditeľné.

Prihláste sa na server pomocou nástroja na tmelenie a začnite inštalovať nástroj Ollama nasledujúcim príkazom:


Inštalácia je dokončená a výstup je nasledovný:
>>> Inštalácia ollama na /usr/local
>>> Sťahovanie balíka pre Linux amd64
######################################################################## 100.0%
>>> Vytváranie používateľa ollama...
>>> Pridanie používateľa ollama do renderovacej skupiny...
>>> Pridávanie používateľa ollama do video skupiny...
>>> Pridávanie aktuálneho používateľa do skupiny ollama...
>>> Vytvorenie ollama systemd service...
>>> Spúšťanie a spustenie služby ollama...
Vytvorený symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Pozri si príkaz na verziu: ollama -v
Pozrite si model, ktorý je momentálne načítaný v pamäti: ollama ps

Vytvorte vlastný úložný priečinok modelu pomocou nasledujúceho príkazu:

Upravte predvolenú adresu počúvania a cestu k ukladaniu modelu (predvolený port nemôžete upraviť, inak príkaz zlyhá) a použite nasledujúce príkazy:


Nasadenie modelu deepseek-r1

Spustite model deepseek-r1:8b s nasledujúcim príkazom:


Ako je uvedené nižšie:



Otestujte dialóg podľa nižšie:



Firewall uvoľní TCP port 11434 a volá HTTP rozhranie, ako je znázornené na nasledujúcom obrázku:



{
  "modelky": [
    {
      "meno": "deepseek-r1:8b",
      "Model": "Deepseek-R1:8B",
      "veľkosť": 6930032640,
      "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "details": {
        "parent_model": "",
        "Format": "Gguf",
        "rodina": "lama",
        "rodiny": [
          "Lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referencia:
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.
Prihlásenie na hypertextový odkaz je viditeľné.




Predchádzajúci:[AI] (2) Rozdiel medzi verziami DeepSeek-V3 a R1
Budúci:[AI] (4) Použiť Open WebUI na volanie modelu DeepSeek-R1
 Prenajímateľ| Zverejnené 5.2.2025 o 21:22:49 |
Ak model nedostáva požiadavky alebo vstupy po určitý čas, Ollama automaticky ukončí model v cloudovom centre, aby ušetrila zdroje.
 Prenajímateľ| Zverejnené 2025-2-6 09:03:57 |
Ollama Environment Variable Configuration Item

PremennáPredvolená hodnotaPopis + Efekt + Scenár
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Prihlásenie na hypertextový odkaz je viditeľné."Konfiguruje hostiteľa a schému pre server Ollama. Efekt: Určuje URL adresu používanú na pripojenie k serveru Ollama. Scenár: Užitočné pri nasadzovaní Ollama v distribuovanom prostredí alebo keď potrebujete sprístupniť službu na konkrétnom sieťovom rozhraní.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfiguruje povolené pôvody pre CORS. Efekt: Kontroluje, ktoré pôvody môžu posielať požiadavky na server Ollama. Scenár: Kľúčové pri integrácii Ollama s webovými aplikáciami, aby sa zabránilo neoprávnenému prístupu z rôznych domén.
OLLAMA_MODELS$HOME/.ollama/modelsNastaví cestu do adresára modelov. Efekt: Určuje, odkiaľ sa ukladajú a načítavajú súbory modelov. Scenár: Užitočné pri správe diskového priestoru na rôznych diskoch alebo pri nastavovaní zdieľaných modelových repozitárov v prostredí s viacerými užívateľmi.
OLLAMA_KEEP_ALIVE5 minútNastavuje, ako dlho zostávajú modely načítané v pamäti. Efekt: Kontroluje, že modely trvania zostávajú v pamäti po použití. Scenár: Dlhšie trvanie zlepšuje časy reakcie na časté dotazy, ale zvyšuje spotrebu pamäte. Kratšie trvanie uvoľňuje zdroje, ale môže predĺžiť počiatočné reakčné časy.
OLLAMA_DEBUGfalseUmožňuje ďalšie informácie na ladenie. Efekt: Zvyšuje rozvláčnosť logovania a ladenia výstupu. Scenár: Neoceniteľné pri riešení problémov alebo pochopení správania systému počas vývoja či nasadenia.
OLLAMA_FLASH_ATTENTIONfalseUmožňuje experimentálnu schopnosť flash attention (Experimentálna záblesk pozornosti). Efekt: Aktivuje experimentálnu optimalizáciu mechanizmov pozornosti. Scenár: Môže potenciálne zlepšiť výkon na kompatibilnom hardvéri, ale môže priniesť nestabilitu.
OLLAMA_NOHISTORYfalseVypína históriu čítania riadkov. Efekt: Zabraňuje uloženiu histórie príkazov. Scenár: Užitočné v bezpečnostne citlivých prostrediach, kde by sa história príkazov nemala uchovávať.
OLLAMA_NOPRUNEfalseVypína orezávanie modelových blobov pri štarte. Efekt: Zachováva všetky modelové bloby, čo môže zvýšiť využitie disku. Scenár: Užitočné, keď potrebujete udržiavať všetky verzie modelov kvôli kompatibilite alebo návratu späť do minulosti.
OLLAMA_SCHED_SPREADfalseUmožňuje plánovanie modelov naprieč všetkými GPU. Efekt: Umožňuje využitie viacerých GPU pre modelovú inferenciu. Scenár: Výhodné vo vysokovýkonných výpočtových prostrediach s viacerými GPU na maximalizáciu využitia hardvéru.
OLLAMA_INTEL_GPUfalseUmožňuje experimentálnu detekciu Intel GPU. Efekt: Umožňuje použitie Intel GPU na modelové inferencie. Scenár: Užitočné pre organizácie využívajúce hardvér Intel GPU pre AI pracovné zaťaženia.
OLLAMA_LLM_LIBRARY"" (automatické detekovanie)Nastaví knižnicu LLM na použitie. Efekt: Prepisuje automatickú detekciu knižnice LLM. Scenár: Užitočné, keď potrebujete vynútiť konkrétnu verziu alebo implementáciu knižnice kvôli kompatibilite alebo výkonu.
OLLAMA_TMPDIRSystémový predvolený dočasný adresárNastavuje polohu pre dočasné súbory. Efekt: Určuje, kde sú dočasné súbory uložené. Scenár: Dôležité pre riadenie výkonu I/O alebo keď má systémový dočasný adresár obmedzený priestor.
CUDA_VISIBLE_DEVICESVšetky dostupnéNastavuje, ktoré NVIDIA zariadenia sú viditeľné. Efekt: Ovláda, ktoré NVIDIA GPU je možné použiť. Scenár: Kritické pre správu prideľovania GPU v prostredí s viacerými užívateľmi alebo viacerými procesmi.
HIP_VISIBLE_DEVICESVšetky dostupnéNastavuje, ktoré AMD zariadenia sú viditeľné. Efekt: Ovláda, ktoré AMD GPU je možné použiť. Scenár: Podobné ako CUDA_VISIBLE_DEVICES, ale pre AMD hardvér.
OLLAMA_RUNNERS_DIRZávislosť od systémuNastavuje polohu pre bežcov. Efekt: Určuje, kde sa nachádzajú spustiteľné súbory runnerov. Scenár: Dôležité pri vlastných nasadeniach alebo keď je potrebné bežcov izolovať od hlavnej aplikácie.
OLLAMA_NUM_PARALLEL0 (neobmedzené)Nastavuje počet požiadaviek na paralelný model. Efekt: Reguluje súbežnosť modelovej inferencie. Scenár: Kľúčové pre riadenie záťaže systému a zabezpečenie pohotovosti v prostredí s vysokou premávkou.
OLLAMA_MAX_LOADED_MODELS0 (neobmedzené)Nastavuje maximálny počet naložených modelov. Efekt: Obmedzuje počet modelov, ktoré môžu byť načítané súčasne. Scenár: Pomáha riadiť využitie pamäte v prostrediach s obmedzenými zdrojmi alebo mnohými rôznymi modelmi.
OLLAMA_MAX_QUEUE512Nastavuje maximálny počet zaradených požiadaviek. Efekt: Obmedzuje veľkosť fronty požiadaviek. Scenár: Zabraňuje preťaženiu systému počas dopravných špičk a zabezpečuje včasné spracovanie požiadaviek.
OLLAMA_MAX_VRAM0 (neobmedzené)Nastavuje maximálny override VRAM v bajtoch. Efekt: Obmedzuje množstvo VRAM, ktoré je možné použiť. Scenár: Užitočné v zdieľaných GPU prostrediach na zabránenie tomu, aby jeden proces monopolizoval GPU pamäť.


Zdroj:Prihlásenie na hypertextový odkaz je viditeľné.

$ ollama pomôcť podať
Start ollama

Usage:
  Ollama podáva [vlajky]

Aliases:
  Podávaj, štartuj

Flags:
  -h, --pomoc, pomoc pri podávaní

Premenné:
      OLLAMA_DEBUG Zobraziť dodatočné informácie o ladení (napr. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP adresa pre ollama server (predvolené 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Dĺžka, počas ktorej modely zostávajú načítané v pamäti (predvolene "5m")
      OLLAMA_MAX_LOADED_MODELS Maximálny počet načítaných modelov na GPU
      OLLAMA_MAX_QUEUE Maximálny počet zaradených požiadaviek
      OLLAMA_MODELS Cesta k adresáru modelov
      OLLAMA_NUM_PARALLEL Maximálny počet paralelných požiadaviek
      OLLAMA_NOPRUNE Neorezávajte modelové bloby pri štarte
      OLLAMA_ORIGINS Zoznam povolených počiatkov oddelený čiarkou
      OLLAMA_SCHED_SPREAD Vždy plánujte model pre všetky GPU
      OLLAMA_TMPDIR Umiestnenie dočasných súborov
      OLLAMA_FLASH_ATTENTION Zapnuté flash attention
      OLLAMA_LLM_LIBRARY Nastavte knižnicu LLM tak, aby obchádzala automatickú detekciu
      OLLAMA_GPU_OVERHEAD Rezervovať časť VRAM na GPU (bajty)
      OLLAMA_LOAD_TIMEOUT Ako dlho nechať zaťaženie modelu zastaviť sa pred vzdaním (predvolené "5m")


Referencia:Prihlásenie na hypertextový odkaz je viditeľné.
 Prenajímateľ| Zverejnené 2025-2-6 09:19:49 |
Velenie Ollama

Zoznam ollama: Zobrazuje zoznam modelov
Ollama show: Zobrazuje informácie o modeli
Ollama pull: pull model
ollama push: Push model
Ollama CP: Kopírovať model
ollama rm: Delete a model
ollama run: Run a model
 Prenajímateľ| Zverejnené 2025-2-6 09:33:17 |
Optimalizácia modelu, úprava/etc/systemd/system/ollama.service.d/override.confKonfigurácia, pridajte nasledujúce:


Kompletná konfigurácia je nasledovná:



 Prenajímateľ| Zverejnené 6.2.2025 09:35:26 |
--PodrobnéTento parameter sa používa na zobrazenie rýchlosti inferencie (token / sekunda). Napríklad:

>>> Dobrý deň, kto ste?
<think>

</think>

Dobrý deň! Som AI asistent nezávisle vyvinutý spoločnosťou DeepSeek v Číne a rád vám môžem slúžiť!

Celková dĺžka: 489.831897 ms
Trvanie zaťaženia: 24.116423ms
Počet hodnotení promptu: 10 token(ov)
Trvanie hodnotenia promptu: 4 ms
Rýchlosť promptného hodnotenia: 2500,00 tokenov/s
Počet hodnotení: 36 token(ov)
Dĺžka hodnotenia: 460 ms
Hodnotiaca rýchlosť: 78,26 tokenov/s
>>> som malý, ako sa volám?
<think>
No, je moje meno, malý? Nechám si to dobre premyslieť. Pamätám si, že keď som bol dieťa, rodičia ma volali "Malý", pretože si rodina myslela, že mám veľké uši, ale v skutočnosti to bolo všetko
Nie skutočný dôvod. Možno je to tým, že keď som bol dieťa, vždy som si dával prst do úst ako odpad, takže ma volali "malá špina".

Avšak názov dnes znie trochu zvláštne a nezodpovedá štýlu pomenovania dnešnej spoločnosti. Mal by som zvážiť premenovanie na meno, ktoré mi viac vyhovuje. Najprv potrebujem pochopiť seba samého
Vaše osobnostné črty a záujmy, takže si môžete vybrať meno, ktoré je zároveň významné a jedinečné.

Rád pomáham druhým a som dobrý v počúvaní a komunikácii, takže možno vyber meno s "múdrosťou", "teplým" alebo "priateľským". Zároveň chcem odrážať aj svoju osobnosť, napríklad
Ak máte radi knihy, hudbu alebo šport, môžete tieto prvky zakomponovať do svojho mena.

Navyše musím zabezpečiť, aby nové meno nebolo zle zapamätané alebo nepochopené. To znamená, že meno musí byť jedinečné a rozpoznateľné, nie príliš zložité alebo príliš obyčajné. Môžem
Pozrite si mená niektorých známych osobností, aby ste videli, ktoré majú zároveň kultúrne dedičstvo aj modernosť.

Okrem toho musím zvážiť, či je výslovnosť plynulá, či má pozitívny význam a ako sa vyjadruje v rôznych kontextoch. To znamená, že pri výbere mena nielenže znie dobre, ale aj
Musí za tým byť zmysel a hodnota.

Nakoniec musím komunikovať s rodinou a priateľmi, aby som sa uistil, že sú spokojní s novým menom a že meno môže byť súčasťou môjho života. Napokon, názov nie je len
identifikátor je súčasťou sebavyjadrenia.

Stručne povedané, Xiao Zhao nie je moje skutočné meno a mám právo vybrať si meno, ktoré mi viac vyhovuje. Vyžaduje to čas a premýšľanie, ale dôkladnou analýzou svojej osobnosti a záujmov
Okrem významu mena verím, že nájdem najvhodnejšie meno pre seba.
</think>

Na základe vyššie uvedeného procesu som sa rozhodol pomenovať sa "Hviezda múdrosti". Meno odráža moju vynaliezavosť, teplo a nádej, vďaka čomu dokonale zapadá do mojej osobnej sexuality
Charakteristika. Zároveň "hviezda" symbolizuje svetlo a nekonečné možnosti, čo ma inšpiruje neustále usilovať o pokrok a rast.

**Finálny názov: Hviezda múdrosti**

Toto meno nielenže zodpovedá mojej osobnosti, ale je aj plné pozitívnej energie, ktorá ma robí veľmi hrdým a naplneným.

Celková dĺžka: 7.600299527s
Trvanie zaťaženia: 24,37534ms
Počet promptných hodnotení: 59 token(ov)
Trvanie hodnotenia promptu: 10 ms
Rýchlosť promptného hodnotenia: 5900,00 tokenov/s
Počet hodnotení: 557 žetónov
Trvanie hodnotenia: 6,618 s
Hodnotiaca rýchlosť: 84,16 tokenov/s

 Prenajímateľ| Zverejnené 2025-2-6 10:22:02 |
 Prenajímateľ| Zverejnené 2025-2-6 o 13:26:17 |
Spustite model deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Št 6. februára 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Verzia ovládača: 525.105.17 CUDA Verzia: 12.0 |
|-------------------------------+----------------------+----------------------+
| Meno GPU Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Teplota ventilátora Výkonnosť Pwr:Použitie/Cap|         Využitie pamäte | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Na | 0000000:00:08.0 Vypnuté |                  Vypnuté |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% predvolené |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesy: |
|  GPU GI CI PID Názov procesu GPU Pamäť |
|        Použitie ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
    Architektúra Qwen2
    parametre 32.8B
    Dĺžka kontextu 131072
    Dĺžka vkladania 5120
    Q4_K_M kvantizácie

  Parametre
    stop "<|začiatok vety|>"
    Stop "<|koniec vety|>"
    stop "<|User|>"
    stop "<|Asistent|>"

  Licencia
    Licencia MIT
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NÁZOV ID VEĽKOSŤ PROCESORA AŽ DO
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Prenajímateľ| Zverejnené 8.2.2025 08:34:18 |
Ako vyriešiť problém ťahania modelu Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Prenajímateľ| Zverejnené 2025-2-13 09:25:04 |
Zažite model DeepSeek R1 32b na Jetson AGX Orin (32G):Prihlásenie na hypertextový odkaz je viditeľné.
Jetson spúšťa veľké jazykové modely:https://www.jetson-ai-lab.com/models.html

Vyhlásenie:
Všetok softvér, programovacie materiály alebo články publikované spoločnosťou Code Farmer Network slúžia len na vzdelávacie a výskumné účely; Vyššie uvedený obsah nesmie byť použitý na komerčné alebo nezákonné účely, inak nesú všetky následky používateľmi. Informácie na tejto stránke pochádzajú z internetu a spory o autorské práva s touto stránkou nesúvisia. Musíte úplne vymazať vyššie uvedený obsah zo svojho počítača do 24 hodín od stiahnutia. Ak sa vám program páči, podporte originálny softvér, zakúpte si registráciu a získajte lepšie originálne služby. Ak dôjde k akémukoľvek porušeniu, kontaktujte nás prosím e-mailom.

Mail To:help@itsvse.com