【AI】(3) Tencent Cloud nasadí DeepSeek-R1 s tutoriálem HAI

Malý hajzl · Zveřejněno 05.02.2025 21:14:04

Hyper Application Inventor (HAI) je produkt poskytující služby GPU pro AI a vědecké výpočty, který poskytuje plug-and-play výpočetní výkon a společná prostředí, jež pomáhá malým a středním podnikům a vývojářům rychle nasazovat LLM.

Adresa:Přihlášení k hypertextovému odkazu je viditelné.

HAI vs GPU servery

Výrazně snížit práh pro využití GPU cloudových serverů, optimalizovat zážitek z více úhlů a používat produkt hned po vybalení, jak je znázorněno na obrázku níže:

Nákup výpočetního výkonu HAI

Přejděte na stránku nákupu, vyberte základní obrázek prostředí "Ubuntu 20.04" a nakonfigurujte prostředí:Ubuntu 20.04, ovladač 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Obrázek už ovladač nainstaloval a my volíme platby průběžně, jak ukazuje obrázek níže:

Video paměť: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 jader
RAM: 40GB

Po několika minutách je instance úspěšně vytvořena a zapnuta Academic Acceleration, jak je znázorněno na následujícím obrázku:

Poprvé, když ho použijete, musíte si resetovat heslo a přihlašovací uživatelské jméno je:Ubuntu。 Zkuste se přihlásit na server a zkontrolovat informace o ovladači NVIDIA GPU pomocí následujícího příkazu:

Přihlášení je viditelné.

Jak je uvedeno níže:

Instalujte Ollamu

Oficiální web Ollamy:Přihlášení k hypertextovému odkazu je viditelné.

Přihlaste se na server pomocí nástroje tmel a začněte instalovat nástroj Ollama následujícím příkazem:

Přihlášení je viditelné.

Instalace je dokončena a výstup je následující:

>>> Instalace ollama na /usr/local
>>> Stažení linuxového balíčku amd64
######################################################################## 100.0%
>>> Vytváření uživatele ollamy...
>>> Přidání uživatele ollama do renderovací skupiny...
>>> Přidání uživatele ollama do video skupiny...
>>> Přidávání současného uživatele do skupiny ollama...
>>> Vytvoření ollama systemd service...
>>> Spuštění a spuštění služby ollama...
Vytvořen symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Podívejte se na příkaz verze: ollama -v
Podívejte se na model, který je právě načten v paměti: ollama ps

Vytvořte vlastní složku pro ukládání modelů pomocí následujícího příkazu:

Přihlášení je viditelné.

Upravte výchozí adresu poslechu a cestu k ukládání modelu (výchozí port nelze upravit, jinak příkaz selže) a použijte následující příkazy:

Přihlášení je viditelné.

Nasadit model deepseek-r1

Spusť model deepseek-r1:8b následujícím příkazem:

Přihlášení je viditelné.

Jak je uvedeno níže:

Otestujte dialog, jak je uvedeno níže:

Firewall uvolní TCP port 11434 a volá HTTP interface, jak je znázorněno na následujícím obrázku:

{
  "modelky": [
{
   "Name": "deepseek-r1:8b",
   "Model": "Deepseek-R1:8B",
   "velikost": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "details": {
      "parent_model": "",
      "Format": "Gguf",
      "rodina": "lama",
      "rodiny": [
      "Lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Odkaz:
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.

Malý hajzl · Zveřejněno 05.02.2025 21:22:49

Pokud model po určitou dobu nedostane požadavky nebo vstupy, Ollama automaticky ukončí model v cloudovém centru, aby ušetřila zdroje.

Malý hajzl · Zveřejněno 06.02.2025 9:03:57

Ollama Environment Variable Configuration Item

Proměnná	Výchozí hodnota	Popis + Efekt + Scénář
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Přihlášení k hypertextovému odkazu je viditelné."	Konfiguruje hostitele a schéma pro server Ollama. Efekt: Určuje URL použitou pro připojení k serveru Ollama. Scénář: Užitečné při nasazení Ollama v distribuovaném prostředí nebo když potřebujete službu zpřístupnit na konkrétním síťovém rozhraní.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfiguruje povolené počátky pro CORS. Efekt: Ovládá, které zdroje mohou posílat požadavky na server Ollama. Scénář: Kritické při integraci Ollamy s webovými aplikacemi, aby se zabránilo neoprávněnému přístupu z různých domén.
OLLAMA_MODELS	$HOME/.ollama/models	Nastaví cestu do adresáře modelů. Efekt: Určuje, odkud jsou soubory modelů uloženy a načítány. Scénář: Užitečné pro správu diskového prostoru na různých discích nebo pro nastavení sdílených modelových repozitářů v prostředí s více uživateli.
OLLAMA_KEEP_ALIVE	5 minut	Nastavuje, jak dlouho zůstávají modely načtené v paměti. Efekt: Ovládá, že modely trvání zůstanou po použití v paměti. Scénář: Delší doby zlepšují dobu odezvy na časté dotazy, ale zvyšují využití paměti. Kratší doba uvolňuje zdroje, ale může prodloužit počáteční reakční dobu.
OLLAMA_DEBUG	false	Umožňuje další informace pro ladění. Efekt: Zvyšuje rozvláčnost logování a ladění výstupů. Scénář: Neocenitelný pro řešení problémů nebo pochopení chování systému během vývoje či nasazení.
OLLAMA_FLASH_ATTENTION	false	Umožňuje experimentální flashovou pozornost. Efekt: Aktivuje experimentální optimalizaci mechanismů pozornosti. Scénář: Může potenciálně zlepšit výkon na kompatibilním hardwaru, ale může zavést nestabilitu.
OLLAMA_NOHISTORY	false	Vypíná historii čtení řádku. Efekt: Zabraňuje ukládání historie příkazů. Scénář: Užitečné v bezpečnostně citlivých prostředích, kde by se historie příkazů neměla uchovávat.
OLLAMA_NOPRUNE	false	Vypíná prořezávání modelových blobů při startu. Efekt: Zachovává všechny modelové bloby, což může zvýšit využití disku. Scénář: Užitečné, když potřebujete udržovat všechny verze modelů kvůli kompatibilitě nebo návratu zpět.
OLLAMA_SCHED_SPREAD	false	Umožňuje plánování modelů napříč všemi GPU. Efekt: Umožňuje využití více GPU pro modelovou inferenci. Scénář: Výhodné v prostředí s vysokým výkonem s více GPU pro maximalizaci využití hardwaru.
OLLAMA_INTEL_GPU	false	Umožňuje experimentální detekci Intel GPU. Efekt: Umožňuje použití Intel GPU pro modelovou inferenci. Scénář: Užitečné pro organizace využívající hardware Intel GPU pro AI pracovní zátěže.
OLLAMA_LLM_LIBRARY	"" (automatické detekování)	Nastaví knihovnu LLM k použití. Efekt: Přepisuje automatickou detekci knihovny LLM. Scénář: Užitečné, když potřebujete vynutit konkrétní verzi nebo implementaci knihovny kvůli kompatibilitě nebo výkonu.
OLLAMA_TMPDIR	Systémový výchozí dočasný adresář	Nastavuje umístění pro dočasné soubory. Efekt: Určuje, kde jsou dočasné soubory uloženy. Scénář: Důležité pro správu výkonu I/O nebo když má systémový dočasný adresář omezené místo.
CUDA_VISIBLE_DEVICES	Vše dostupné	Nastavuje, která NVIDIA zařízení jsou viditelná. Efekt: Ovládá, které grafické karty NVIDIA lze použít. Scénář: Kritické pro správu alokace GPU v prostředí s více uživateli nebo více procesory.
HIP_VISIBLE_DEVICES	Vše dostupné	Nastavuje, která AMD zařízení jsou viditelná. Efekt: Ovládá, které AMD GPU lze použít. Scénář: Podobný jako CUDA_VISIBLE_DEVICES, ale pro AMD hardware.
OLLAMA_RUNNERS_DIR	Závislé na systému	Nastavuje místo pro běžce. Efekt: Určuje, kde se nacházejí spustitelné soubory runnerů. Scénář: Důležité pro vlastní nasazení nebo když je potřeba izolovat runnery od hlavní aplikace.
OLLAMA_NUM_PARALLEL	0 (neomezené)	Nastavuje počet požadavků na paralelní model. Efekt: Řídí souběžnost modelové inference. Scénář: Klíčové pro řízení zátěže systému a zajištění reakce v prostředí s vysokou návštěvností.
OLLAMA_MAX_LOADED_MODELS	0 (neomezené)	Nastavuje maximální počet naložených modelů. Efekt: Omezuje počet modelů, které lze současně načítat. Scénář: Pomáhá řídit využití paměti v prostředích s omezenými zdroji nebo mnoha různými modely.
OLLAMA_MAX_QUEUE	512	Nastavuje maximální počet požadavků ve frontě. Efekt: Omezuje velikost fronty požadavků. Scénář: Zabraňuje přetížení systému během dopravních špičk a zajišťuje včasné zpracování požadavků.
OLLAMA_MAX_VRAM	0 (neomezené)	Nastavuje maximální přepsání VRAM v bajtech. Efekt: Omezuje množství VRAM, které lze použít. Scénář: Užitečné ve sdílených GPU prostředích, aby se zabránilo tomu, aby jeden proces monopolizoval paměť GPU.

Zdroj:Přihlášení k hypertextovému odkazu je viditelné.

$ ollama pomoz servírovat
Start ollama

Usage:
  Ollama podání [vlajky]

Aliases:
  Podávej, začni

Flags:
  -H, --pomoc, pomoc pro servis

Proměnné prostředí:
   OLLAMA_DEBUG Zobrazit další informace o ladění (např. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP adresa pro server ollama (výchozí 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Doba, po kterou modely zůstávají načtené v paměti (výchozí "5m")
   OLLAMA_MAX_LOADED_MODELS Maximální počet načtených modelů na GPU
   OLLAMA_MAX_QUEUE Maximální počet požadavků ve frontě
   OLLAMA_MODELS Cesta k adresáři modelů
   OLLAMA_NUM_PARALLEL Maximální počet paralelních požadavků
   OLLAMA_NOPRUNE Neprořezávejte modelové bloby při startu
   OLLAMA_ORIGINS Seznam povolených počátků oddělený čárkou
   OLLAMA_SCHED_SPREAD Vždy plánujte model pro všechny GPU
   OLLAMA_TMPDIR Umístění dočasných souborů
   OLLAMA_FLASH_ATTENTION Zapnutá flash attention
   OLLAMA_LLM_LIBRARY Nastavte knihovnu LLM tak, aby obešla automatickou detekci
   OLLAMA_GPU_OVERHEAD Rezervovat část VRAM na GPU (bajty)
   OLLAMA_LOAD_TIMEOUT Jak dlouho nechat modelové zatížení zastavit, než to vzdám (výchozí "5m")

Odkaz:Přihlášení k hypertextovému odkazu je viditelné.

Malý hajzl · Zveřejněno 06.02.2025 9:19:49

Velení Ollama

seznam ollama: Zobrazuje seznam modelů
Ollama show: Zobrazuje informace o modelu
Ollama pull: pull model
ollama push: Push model
Ollama CP: Kopírovat model
ollama rm: Delete a model
ollama run: Spustit model

Malý hajzl · Zveřejněno 06.02.2025 9:33:17

Optimalizace modelu, editace/etc/systemd/system/ollama.service.d/override.confkonfigurace, přidejte následující:

Přihlášení je viditelné.

Kompletní konfigurace je následující:

Přihlášení je viditelné.

Malý hajzl · Zveřejněno 06.02.2025 9:35:26

--užvaněnýTento parametr slouží k zobrazení rychlosti inference (token / sekunda). Například:

Přihlášení je viditelné.

>>> Dobrý den, kdo jste?
<think>

</think>

Dobrý den! Jsem AI asistent nezávisle vyvinutý společností DeepSeek v Číně a rád vám pomohu pomoci!

Celková délka: 489,831897 ms
Doba načítání: 24,116423 ms
Počet hodnocení promptu: 10 tokenů
Délka hodnocení promptu: 4ms
Rychlost promptního hodnocení: 2500,00 tokenů/s
Počet hodnocení: 36 tokenů
Doba hodnocení: 460 ms
Hodnotící rychlost: 78,26 tokenů/s
>>> jsem malý hajzl, jak se jmenuju?
<think>
Tak co, je moje jméno malý šmejd? Nech mě o tom pořádně přemýšlet. Pamatuji si, že když jsem byl dítě, rodiče mi říkali "Malý hajzl", protože si rodina myslela, že mám velké uši, ale ve skutečnosti to bylo všechno
Ne ten pravý důvod. Možná proto, že když jsem byl dítě, vždycky jsem si strkal prst do pusy jako odpad, takže mi říkali "malý šmejd".

Nicméně název dnes zní trochu zvláštně a nesedí úplně do dnešního stylu pojmenování. Měl bych zvážit přejmenování na jméno, které mi bude lépe vyhovovat. Nejprve potřebuji pochopit sebe sama
Vaše osobnostní rysy a zájmy, abyste si mohli vybrat jméno, které je zároveň významné a jedinečné.

Rád pomáhám ostatním a jsem dobrý v naslouchání a komunikaci, takže možná zvolte jméno s "moudrostí", "vřelým" nebo "přátelským". Zároveň chci také odrážet svou osobnost, například
Pokud máte rádi knihy, hudbu nebo sport, můžete tyto prvky začlenit do svého jména.

Navíc musím zajistit, aby nové jméno nebylo špatně zapamatováno nebo nepochopeno. To znamená, že jméno musí být jedinečné a rozpoznatelné, ne příliš složité nebo příliš obyčejné. Můžu
Podívejte se na jména některých známých osobností, abyste zjistili, které mají jak kulturní dědictví, tak modernitu.

Dále musím zvážit, zda je výslovnost plynulá, zda má pozitivní význam a jak se vyjadřuje v různých kontextech. To znamená, že při výběru jména nejen dobře zní, ale také
Musí za tím být smysl a hodnota.

Nakonec musím komunikovat s rodinou a přáteli, abych se ujistil, že jsou spokojení s novým jménem a že to jméno může být součástí mého života. Koneckonců, jméno není jen
identifikátor je součástí sebevyjádření.

Stručně řečeno, Xiao Zhao není mé pravé jméno a mám právo vybrat si jméno, které mi bude lépe vyhovovat. Vyžaduje to čas a přemýšlení, ale pečlivou analýzou vaší osobnosti a zájmů
Kromě významu jména věřím, že najdu to nejvhodnější pro sebe.
</think>

Na základě výše uvedeného procesu jsem se rozhodl pojmenovat se "Hvězda moudrosti". Název odráží jak mou vynalézavost, teplo a naději, což z něj dělá ideální volbu pro mou osobní sexualitu
Charakteristiky. Současně "hvězda" symbolizuje světlo a nekonečné možnosti, což mě inspiruje k neustálému usilování o pokrok a růst.

**Konečný název: Hvězda moudrosti**

Toto jméno nejen odpovídá mé osobnosti, ale je také plné pozitivní energie, která mě naplňuje hrdostí a naplněním.

Celková délka: 7,600299527s
Doba načítání: 24,37534ms
Počet promptových hodnocení: 59 tokenů
Doba hodnocení promptu: 10ms
Rychlost promptního hodnocení: 5900,00 tokenů/s
Počet hodnocení: 557 tokenů.
Doba hodnocení: 6,618 s
Hodnotící rychlost: 84,16 tokenů/s

Malý hajzl · Zveřejněno 06.02.2025 10:22:02

Nasazování modelů ollama s AMD GPU
Ollama-for-AMD:Přihlášení k hypertextovému odkazu je viditelné.

Odkaz:Přihlášení k hypertextovému odkazu je viditelné.

Malý hajzl · Zveřejněno 06.02.2025 13:26:17

Použijte model deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Čt 6. února 2025 13:25:04
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Verze ovladače: 525.105.17 CUDA Verze: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Název Persistence-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Teplota ventilátoru Výkon Pwr:Použití/Kryt|       Využití paměti | GPU-util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Na | 0000000:00:08.0 Off |                Vypnuto |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% výchozí nastavení |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesy: |
|  GPU GI CI PID Název procesu GPU Paměť |
|       Použití ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
Architektura Qwen2
parametry 32.8B
Délka kontextu 131072
Délka vložení 5120
Kvantizace Q4_K_M

  Parametry
stop "<|začátek věty|>"
stop "<|konec věty|>"
stop "<|User|>"
stop "<|Asistent|>"

  Licence
Licence MIT
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NÁZEV ID SIZE PROCESSOR AŽ DO
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Malý hajzl · Zveřejněno 08.02.2025 8:34:18

Jak vyřešit problém tažení modelu Ollama
https://www.itsvse.com/thread-10939-1-1.html

Malý hajzl · Zveřejněno 13.02.2025 9:25:04

Zažijte model DeepSeek R1 32b na Jetson AGX Orin (32G):Přihlášení k hypertextovému odkazu je viditelné.
Jetson spouští velké jazykové modely:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud nasadí DeepSeek-R1 s tutoriálem HAI

Související příspěvky