Tento článek je zrcadlovým článkem o strojovém překladu, klikněte zde pro přechod na původní článek.

Pohled: 2394|Odpověď: 10

【AI】(3) Tencent Cloud nasadí DeepSeek-R1 s tutoriálem HAI

[Kopírovat odkaz]
Zveřejněno 5. 2. 2025 21:14:04 | | | |
Hyper Application Inventor (HAI) je produkt poskytující služby GPU pro AI a vědecké výpočty, který poskytuje plug-and-play výpočetní výkon a společná prostředí, jež pomáhá malým a středním podnikům a vývojářům rychle nasazovat LLM.

Adresa:Přihlášení k hypertextovému odkazu je viditelné.

HAI vs GPU servery

Výrazně snížit práh pro využití GPU cloudových serverů, optimalizovat zážitek z více úhlů a používat produkt hned po vybalení, jak je znázorněno na obrázku níže:



Nákup výpočetního výkonu HAI

Přejděte na stránku nákupu, vyberte základní obrázek prostředí "Ubuntu 20.04" a nakonfigurujte prostředí:Ubuntu 20.04, ovladač 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Obrázek už ovladač nainstaloval a my volíme platby průběžně, jak ukazuje obrázek níže:



Video paměť: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 jader
RAM: 40GB

Po několika minutách je instance úspěšně vytvořena a zapnuta Academic Acceleration, jak je znázorněno na následujícím obrázku:



Poprvé, když ho použijete, musíte si resetovat heslo a přihlašovací uživatelské jméno je:Ubuntu。 Zkuste se přihlásit na server a zkontrolovat informace o ovladači NVIDIA GPU pomocí následujícího příkazu:


Jak je uvedeno níže:


Instalujte Ollamu

Oficiální web Ollamy:Přihlášení k hypertextovému odkazu je viditelné.

Přihlaste se na server pomocí nástroje tmel a začněte instalovat nástroj Ollama následujícím příkazem:


Instalace je dokončena a výstup je následující:
>>> Instalace ollama na /usr/local
>>> Stažení linuxového balíčku amd64
######################################################################## 100.0%
>>> Vytváření uživatele ollamy...
>>> Přidání uživatele ollama do renderovací skupiny...
>>> Přidání uživatele ollama do video skupiny...
>>> Přidávání současného uživatele do skupiny ollama...
>>> Vytvoření ollama systemd service...
>>> Spuštění a spuštění služby ollama...
Vytvořen symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Podívejte se na příkaz verze: ollama -v
Podívejte se na model, který je právě načten v paměti: ollama ps

Vytvořte vlastní složku pro ukládání modelů pomocí následujícího příkazu:

Upravte výchozí adresu poslechu a cestu k ukládání modelu (výchozí port nelze upravit, jinak příkaz selže) a použijte následující příkazy:


Nasadit model deepseek-r1

Spusť model deepseek-r1:8b následujícím příkazem:


Jak je uvedeno níže:



Otestujte dialog, jak je uvedeno níže:



Firewall uvolní TCP port 11434 a volá HTTP interface, jak je znázorněno na následujícím obrázku:



{
  "modelky": [
    {
      "Name": "deepseek-r1:8b",
      "Model": "Deepseek-R1:8B",
      "velikost": 6930032640,
      "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "details": {
        "parent_model": "",
        "Format": "Gguf",
        "rodina": "lama",
        "rodiny": [
          "Lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Odkaz:
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.
Přihlášení k hypertextovému odkazu je viditelné.




Předchozí:[AI] (2) Rozdíl mezi verzemi DeepSeek-V3 a R1
Další:[AI] (4) Použijte Open WebUI k vyvolání modelu DeepSeek-R1
 Pronajímatel| Zveřejněno 5. 2. 2025 21:22:49 |
Pokud model po určitou dobu nedostane požadavky nebo vstupy, Ollama automaticky ukončí model v cloudovém centru, aby ušetřila zdroje.
 Pronajímatel| Zveřejněno 6. 2. 2025 09:03:57 |
Ollama Environment Variable Configuration Item

ProměnnáVýchozí hodnotaPopis + Efekt + Scénář
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Přihlášení k hypertextovému odkazu je viditelné."Konfiguruje hostitele a schéma pro server Ollama. Efekt: Určuje URL použitou pro připojení k serveru Ollama. Scénář: Užitečné při nasazení Ollama v distribuovaném prostředí nebo když potřebujete službu zpřístupnit na konkrétním síťovém rozhraní.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfiguruje povolené počátky pro CORS. Efekt: Ovládá, které zdroje mohou posílat požadavky na server Ollama. Scénář: Kritické při integraci Ollamy s webovými aplikacemi, aby se zabránilo neoprávněnému přístupu z různých domén.
OLLAMA_MODELS$HOME/.ollama/modelsNastaví cestu do adresáře modelů. Efekt: Určuje, odkud jsou soubory modelů uloženy a načítány. Scénář: Užitečné pro správu diskového prostoru na různých discích nebo pro nastavení sdílených modelových repozitářů v prostředí s více uživateli.
OLLAMA_KEEP_ALIVE5 minutNastavuje, jak dlouho zůstávají modely načtené v paměti. Efekt: Ovládá, že modely trvání zůstanou po použití v paměti. Scénář: Delší doby zlepšují dobu odezvy na časté dotazy, ale zvyšují využití paměti. Kratší doba uvolňuje zdroje, ale může prodloužit počáteční reakční dobu.
OLLAMA_DEBUGfalseUmožňuje další informace pro ladění. Efekt: Zvyšuje rozvláčnost logování a ladění výstupů. Scénář: Neocenitelný pro řešení problémů nebo pochopení chování systému během vývoje či nasazení.
OLLAMA_FLASH_ATTENTIONfalseUmožňuje experimentální flashovou pozornost. Efekt: Aktivuje experimentální optimalizaci mechanismů pozornosti. Scénář: Může potenciálně zlepšit výkon na kompatibilním hardwaru, ale může zavést nestabilitu.
OLLAMA_NOHISTORYfalseVypíná historii čtení řádku. Efekt: Zabraňuje ukládání historie příkazů. Scénář: Užitečné v bezpečnostně citlivých prostředích, kde by se historie příkazů neměla uchovávat.
OLLAMA_NOPRUNEfalseVypíná prořezávání modelových blobů při startu. Efekt: Zachovává všechny modelové bloby, což může zvýšit využití disku. Scénář: Užitečné, když potřebujete udržovat všechny verze modelů kvůli kompatibilitě nebo návratu zpět.
OLLAMA_SCHED_SPREADfalseUmožňuje plánování modelů napříč všemi GPU. Efekt: Umožňuje využití více GPU pro modelovou inferenci. Scénář: Výhodné v prostředí s vysokým výkonem s více GPU pro maximalizaci využití hardwaru.
OLLAMA_INTEL_GPUfalseUmožňuje experimentální detekci Intel GPU. Efekt: Umožňuje použití Intel GPU pro modelovou inferenci. Scénář: Užitečné pro organizace využívající hardware Intel GPU pro AI pracovní zátěže.
OLLAMA_LLM_LIBRARY"" (automatické detekování)Nastaví knihovnu LLM k použití. Efekt: Přepisuje automatickou detekci knihovny LLM. Scénář: Užitečné, když potřebujete vynutit konkrétní verzi nebo implementaci knihovny kvůli kompatibilitě nebo výkonu.
OLLAMA_TMPDIRSystémový výchozí dočasný adresářNastavuje umístění pro dočasné soubory. Efekt: Určuje, kde jsou dočasné soubory uloženy. Scénář: Důležité pro správu výkonu I/O nebo když má systémový dočasný adresář omezené místo.
CUDA_VISIBLE_DEVICESVše dostupnéNastavuje, která NVIDIA zařízení jsou viditelná. Efekt: Ovládá, které grafické karty NVIDIA lze použít. Scénář: Kritické pro správu alokace GPU v prostředí s více uživateli nebo více procesory.
HIP_VISIBLE_DEVICESVše dostupnéNastavuje, která AMD zařízení jsou viditelná. Efekt: Ovládá, které AMD GPU lze použít. Scénář: Podobný jako CUDA_VISIBLE_DEVICES, ale pro AMD hardware.
OLLAMA_RUNNERS_DIRZávislé na systémuNastavuje místo pro běžce. Efekt: Určuje, kde se nacházejí spustitelné soubory runnerů. Scénář: Důležité pro vlastní nasazení nebo když je potřeba izolovat runnery od hlavní aplikace.
OLLAMA_NUM_PARALLEL0 (neomezené)Nastavuje počet požadavků na paralelní model. Efekt: Řídí souběžnost modelové inference. Scénář: Klíčové pro řízení zátěže systému a zajištění reakce v prostředí s vysokou návštěvností.
OLLAMA_MAX_LOADED_MODELS0 (neomezené)Nastavuje maximální počet naložených modelů. Efekt: Omezuje počet modelů, které lze současně načítat. Scénář: Pomáhá řídit využití paměti v prostředích s omezenými zdroji nebo mnoha různými modely.
OLLAMA_MAX_QUEUE512Nastavuje maximální počet požadavků ve frontě. Efekt: Omezuje velikost fronty požadavků. Scénář: Zabraňuje přetížení systému během dopravních špičk a zajišťuje včasné zpracování požadavků.
OLLAMA_MAX_VRAM0 (neomezené)Nastavuje maximální přepsání VRAM v bajtech. Efekt: Omezuje množství VRAM, které lze použít. Scénář: Užitečné ve sdílených GPU prostředích, aby se zabránilo tomu, aby jeden proces monopolizoval paměť GPU.


Zdroj:Přihlášení k hypertextovému odkazu je viditelné.

$ ollama pomoz servírovat
Start ollama

Usage:
  Ollama podání [vlajky]

Aliases:
  Podávej, začni

Flags:
  -H, --pomoc, pomoc pro servis

Proměnné prostředí:
      OLLAMA_DEBUG Zobrazit další informace o ladění (např. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP adresa pro server ollama (výchozí 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Doba, po kterou modely zůstávají načtené v paměti (výchozí "5m")
      OLLAMA_MAX_LOADED_MODELS Maximální počet načtených modelů na GPU
      OLLAMA_MAX_QUEUE Maximální počet požadavků ve frontě
      OLLAMA_MODELS Cesta k adresáři modelů
      OLLAMA_NUM_PARALLEL Maximální počet paralelních požadavků
      OLLAMA_NOPRUNE Neprořezávejte modelové bloby při startu
      OLLAMA_ORIGINS Seznam povolených počátků oddělený čárkou
      OLLAMA_SCHED_SPREAD Vždy plánujte model pro všechny GPU
      OLLAMA_TMPDIR Umístění dočasných souborů
      OLLAMA_FLASH_ATTENTION Zapnutá flash attention
      OLLAMA_LLM_LIBRARY Nastavte knihovnu LLM tak, aby obešla automatickou detekci
      OLLAMA_GPU_OVERHEAD Rezervovat část VRAM na GPU (bajty)
      OLLAMA_LOAD_TIMEOUT Jak dlouho nechat modelové zatížení zastavit, než to vzdám (výchozí "5m")


Odkaz:Přihlášení k hypertextovému odkazu je viditelné.
 Pronajímatel| Zveřejněno 6. února 2025 09:19:49 |
Velení Ollama

seznam ollama: Zobrazuje seznam modelů
Ollama show: Zobrazuje informace o modelu
Ollama pull: pull model
ollama push: Push model
Ollama CP: Kopírovat model
ollama rm: Delete a model
ollama run: Spustit model
 Pronajímatel| Zveřejněno 6. 2. 2025 09:33:17 |
Optimalizace modelu, editace/etc/systemd/system/ollama.service.d/override.confkonfigurace, přidejte následující:


Kompletní konfigurace je následující:



 Pronajímatel| Zveřejněno 6. 2. 2025 09:35:26 |
--užvaněnýTento parametr slouží k zobrazení rychlosti inference (token / sekunda). Například:

>>> Dobrý den, kdo jste?
<think>

</think>

Dobrý den! Jsem AI asistent nezávisle vyvinutý společností DeepSeek v Číně a rád vám pomohu pomoci!

Celková délka: 489,831897 ms
Doba načítání: 24,116423 ms
Počet hodnocení promptu: 10 tokenů
Délka hodnocení promptu: 4ms
Rychlost promptního hodnocení: 2500,00 tokenů/s
Počet hodnocení: 36 tokenů
Doba hodnocení: 460 ms
Hodnotící rychlost: 78,26 tokenů/s
>>> jsem malý hajzl, jak se jmenuju?
<think>
Tak co, je moje jméno malý šmejd? Nech mě o tom pořádně přemýšlet. Pamatuji si, že když jsem byl dítě, rodiče mi říkali "Malý hajzl", protože si rodina myslela, že mám velké uši, ale ve skutečnosti to bylo všechno
Ne ten pravý důvod. Možná proto, že když jsem byl dítě, vždycky jsem si strkal prst do pusy jako odpad, takže mi říkali "malý šmejd".

Nicméně název dnes zní trochu zvláštně a nesedí úplně do dnešního stylu pojmenování. Měl bych zvážit přejmenování na jméno, které mi bude lépe vyhovovat. Nejprve potřebuji pochopit sebe sama
Vaše osobnostní rysy a zájmy, abyste si mohli vybrat jméno, které je zároveň významné a jedinečné.

Rád pomáhám ostatním a jsem dobrý v naslouchání a komunikaci, takže možná zvolte jméno s "moudrostí", "vřelým" nebo "přátelským". Zároveň chci také odrážet svou osobnost, například
Pokud máte rádi knihy, hudbu nebo sport, můžete tyto prvky začlenit do svého jména.

Navíc musím zajistit, aby nové jméno nebylo špatně zapamatováno nebo nepochopeno. To znamená, že jméno musí být jedinečné a rozpoznatelné, ne příliš složité nebo příliš obyčejné. Můžu
Podívejte se na jména některých známých osobností, abyste zjistili, které mají jak kulturní dědictví, tak modernitu.

Dále musím zvážit, zda je výslovnost plynulá, zda má pozitivní význam a jak se vyjadřuje v různých kontextech. To znamená, že při výběru jména nejen dobře zní, ale také
Musí za tím být smysl a hodnota.

Nakonec musím komunikovat s rodinou a přáteli, abych se ujistil, že jsou spokojení s novým jménem a že to jméno může být součástí mého života. Koneckonců, jméno není jen
identifikátor je součástí sebevyjádření.

Stručně řečeno, Xiao Zhao není mé pravé jméno a mám právo vybrat si jméno, které mi bude lépe vyhovovat. Vyžaduje to čas a přemýšlení, ale pečlivou analýzou vaší osobnosti a zájmů
Kromě významu jména věřím, že najdu to nejvhodnější pro sebe.
</think>

Na základě výše uvedeného procesu jsem se rozhodl pojmenovat se "Hvězda moudrosti". Název odráží jak mou vynalézavost, teplo a naději, což z něj dělá ideální volbu pro mou osobní sexualitu
Charakteristiky. Současně "hvězda" symbolizuje světlo a nekonečné možnosti, což mě inspiruje k neustálému usilování o pokrok a růst.

**Konečný název: Hvězda moudrosti**

Toto jméno nejen odpovídá mé osobnosti, ale je také plné pozitivní energie, která mě naplňuje hrdostí a naplněním.

Celková délka: 7,600299527s
Doba načítání: 24,37534ms
Počet promptových hodnocení: 59 tokenů
Doba hodnocení promptu: 10ms
Rychlost promptního hodnocení: 5900,00 tokenů/s
Počet hodnocení: 557 tokenů.
Doba hodnocení: 6,618 s
Hodnotící rychlost: 84,16 tokenů/s

 Pronajímatel| Zveřejněno 6. 2. 2025 10:22:02 |
 Pronajímatel| Zveřejněno 6. 2. 2025 13:26:17 |
Použijte model deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Čt 6. února 2025 13:25:04
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Verze ovladače: 525.105.17 CUDA Verze: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU Název Persistence-M| Bus-ID Disp.A | Volatile Uncorr. ECC |
| Teplota ventilátoru Výkon Pwr:Použití/Kryt|         Využití paměti | GPU-util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Na | 0000000:00:08.0 Off |                  Vypnuto |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% výchozí nastavení |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesy: |
|  GPU GI CI PID Název procesu GPU Paměť |
|        Použití ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
    Architektura Qwen2
    parametry 32.8B
    Délka kontextu 131072
    Délka vložení 5120
    Kvantizace Q4_K_M

  Parametry
    stop "<|začátek věty|>"
    stop "<|konec věty|>"
    stop "<|User|>"
    stop "<|Asistent|>"

  Licence
    Licence MIT
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NÁZEV ID SIZE PROCESSOR AŽ DO
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Pronajímatel| Zveřejněno 8. 2. 2025 08:34:18 |
Jak vyřešit problém tažení modelu Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Pronajímatel| Zveřejněno 13. 2. 2025 09:25:04 |
Zažijte model DeepSeek R1 32b na Jetson AGX Orin (32G):Přihlášení k hypertextovému odkazu je viditelné.
Jetson spouští velké jazykové modely:https://www.jetson-ai-lab.com/models.html

Zřeknutí se:
Veškerý software, programovací materiály nebo články publikované organizací Code Farmer Network slouží pouze k učení a výzkumu; Výše uvedený obsah nesmí být používán pro komerční ani nelegální účely, jinak nesou všechny důsledky uživatelé. Informace na tomto webu pocházejí z internetu a spory o autorská práva s tímto webem nesouvisí. Musíte výše uvedený obsah ze svého počítače zcela smazat do 24 hodin od stažení. Pokud se vám program líbí, podporujte prosím originální software, kupte si registraci a získejte lepší skutečné služby. Pokud dojde k jakémukoli porušení, kontaktujte nás prosím e-mailem.

Mail To:help@itsvse.com