【AI】(3) Tencent Cloud wdraża DeepSeek-R1 z tutorialem HAI

Mały śmiecie · Opublikowano 05.02.2025 21:14:04

Hyper Application Inventor (HAI) to produkt usług aplikacji GPU dla AI i obliczeń naukowych, oferujący moc obliczeniową typu plug-and-play oraz wspólne środowiska, które pomagają małym i średnim przedsiębiorstwom oraz deweloperom szybko wdrażać LLM.

Adres:Logowanie do linku jest widoczne.

HAI vs serwery GPU

Znacznie obniż próg korzystania z serwera w chmurze GPU, zoptymalizuj doświadczenie produktu z wielu perspektyw i korzystaj z niego od razu, jak pokazano na poniższym rysunku:

Zakup mocy obliczeniowej HAI

Wejdź na stronę zakupu, wybierz obraz środowiska podstawowego "Ubuntu 20.04" i skonfiguruj środowisko:Ubuntu 20.04, sterownik 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Obraz już zainstalował sterownik dla nas i wybieramy płatności w trakcie użytkowania, jak pokazano na poniższym rysunku:

Pamięć wideo: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 rdzeni
RAM: 40GB

Po kilku minutach instancja zostaje pomyślnie utworzona, a Academic Acceleration włączona, jak pokazano na poniższym rysunku:

Za pierwszym razem musisz zresetować hasło, a nazwa użytkownika logowania to:Ubuntu。 Spróbuj zalogować się na serwer i sprawdzić informacje o sterowniku karty NVIDIA za pomocą następującego polecenia:

Logowanie jest widoczne.

Jak pokazano poniżej:

Instaluj Ollamę

Oficjalna strona Ollama:Logowanie do linku jest widoczne.

Zaloguj się na serwer za pomocą narzędzia putty i rozpocznij instalację narzędzia Ollama za pomocą następującego polecenia:

Logowanie jest widoczne.

Instalacja jest zakończona, a wyjście wygląda następująco:

>>> Instalacja ollama na /usr/local
>>> Pobieranie pakietu amd64 na Linuksa
######################################################################## 100.0%
>>> Tworzenie użytkownika ollama...
>>> Dodanie użytkownika ollama do grupy renderującej...
>>> Dodanie użytkownika ollama do grupy wideo...
>>> Dodaję obecnego użytkownika do grupy ollama...
>>> Tworzenie usługi ollama systemd...
>>> Uruchomienie i uruchomienie usługi ollamy...
Utworzono symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Sprawdź polecenie version: ollama -v
Zobacz model, który jest obecnie ładowany do pamięci: ollama ps

Stwórz niestandardowy folder pamięci do przechowywania modelu za pomocą następującego polecenia:

Logowanie jest widoczne.

Zmodyfikuj domyślny adres nasłuchu i ścieżkę pamięci modelu (nie możesz zmodyfikować domyślnego portu, w przeciwnym razie polecenie się nie powiedzie) i użyj następujących poleceń:

Logowanie jest widoczne.

Wdrożenie modelu deepseek-r1

Uruchom model deepseek-r1:8b z następującym poleceniem:

Logowanie jest widoczne.

Jak pokazano poniżej:

Przetestuj dialog zgodnie z poniższymi wskazówkami:

Zapora zwalnia port TCP 11434 i wywołuje interfejs HTTP, jak pokazano na poniższym rysunku:

{
  "modele": [
{
   "Nazwa": "Deepseek-R1:8B",
   "Model": "Deepseek-R1:8B",
   "rozmiar": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "szczegóły": {
      "parent_model": "",
      "format": "gguf",
      "rodzina": "lama",
      "rodziny": [
      "Lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Odniesienie:
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.

Mały śmiecie · Opublikowano 05.02.2025 21:22:49

Jeśli model nie otrzymuje żądań lub wejść przez pewien czas, Ollama automatycznie kończy model w centrum chmurowym, aby zaoszczędzić zasoby.

Mały śmiecie · Opublikowano 06.02.2025 09:03:57

Element konfiguracji zmiennej środowiskowej ollama

Zmienna	Domyślna wartość	Opis + Efekt + Scenariusz
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Logowanie do linku jest widoczne."	Konfiguruje hosta i schemat serwera Ollama. Efekt: Określa adres URL używany do łączenia się z serwerem Ollama. Scenariusz: Przydatne przy wdrażaniu Ollama w środowisku rozproszonym lub gdy musisz udostępnić usługę na konkretnym interfejsie sieciowym.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfiguruje dozwolone początki dla CORS. Efekt: Kontroluje, które źródła mogą wysyłać żądania do serwera Ollama. Scenariusz: Kluczowe przy integracji Ollama z aplikacjami webowymi, aby zapobiec nieautoryzowanemu dostępowi z różnych domen.
OLLAMA_MODELS	$HOME/.ollama/models	Ustawia ścieżkę do katalogu modeli. Efekt: Określa, skąd pliki modeli są przechowywane i ładowane. Scenariusz: Przydatne do zarządzania przestrzenią dyskową na różnych dyskach lub tworzenia współdzielonych repozytoriów modeli w środowiskach wieloużytkownikowych.
OLLAMA_KEEP_ALIVE	5 minut	Określa, jak długo modele pozostają załadowane w pamięci. Efekt: Kontroluje, że modele czasu trwania pozostają w pamięci po użyciu. Scenariusz: Dłuższe czasy pracy poprawiają czas odpowiedzi na częste zapytania, ale zwiększają zużycie pamięci. Krótsze czasy uwalniają zasoby, ale mogą wydłużyć czas początkowej reakcji.
OLLAMA_DEBUG	false	Umożliwia dodatkowe informacje debugujące. Efekt: Zwiększa rozwlekłość logowania i debugowania. Scenariusz: Nieoceniony do rozwiązywania problemów lub zrozumienia zachowania systemu podczas rozwoju lub wdrożenia.
OLLAMA_FLASH_ATTENTION	false	Włącza eksperymentalną funkcję błysku uwagi. Efekt: Aktywuje eksperymentalną optymalizację mechanizmów uwagi. Scenariusz: Może potencjalnie poprawić wydajność na kompatybilnym sprzęcie, ale może wprowadzać niestabilność.
OLLAMA_NOHISTORY	false	Wyłącza historię czytania linii. Efekt: Zapobiega zapisywaniu historii poleceń. Scenariusz: Przydatny w środowiskach wrażliwych na bezpieczeństwo, gdzie historia poleceń nie powinna być utrwalana.
OLLAMA_NOPRUNE	false	Wyłącza przycinanie blobów modelu przy starcie. Efekt: Zachowuje wszystkie bloby modelu, co potencjalnie zwiększa zużycie dysku. Scenariusz: Pomocne, gdy trzeba utrzymywać wszystkie wersje modelu ze względu na kompatybilność lub cofanie modelu.
OLLAMA_SCHED_SPREAD	false	Pozwala na planowanie modeli na wszystkich GPU. Efekt: Umożliwia wykorzystanie wielu GPU do wnioskowania modelowego. Scenariusz: Korzystne w środowiskach wysokowydajnych obliczeniowych z wieloma GPU, aby zmaksymalizować wykorzystanie sprzętu.
OLLAMA_INTEL_GPU	false	Umożliwia eksperymentalne wykrywanie karty Intel GPU. Efekt: Umożliwia wykorzystanie procesorów Intel do wnioskowania modeli. Scenariusz: Przydatne dla organizacji wykorzystujących sprzęt Intel GPU do zadań AI.
OLLAMA_LLM_LIBRARY	"" (automatyczne wykrywanie)	Ustawia bibliotekę LLM do użycia. Efekt: Nadpisuje automatyczne wykrywanie biblioteki LLM. Scenariusz: Przydatne, gdy trzeba wymusić konkretną wersję lub implementację biblioteki ze względów kompatybilności lub wydajności.
OLLAMA_TMPDIR	Domyślny katalog tymczasowy systemu	Ustawia lokalizację dla plików tymczasowych. Efekt: Określa, gdzie przechowywane są pliki tymczasowe. Scenariusz: Ważne dla zarządzania wydajnością I/O lub gdy katalog tymczasowy systemu ma ograniczoną przestrzeń.
CUDA_VISIBLE_DEVICES	Wszystkie dostępne	Ustawia, które urządzenia NVIDIA są widoczne. Efekt: Kontroluje, które karty graficzne NVIDIA mogą być używane. Scenariusz: Kluczowe dla zarządzania alokacją GPU w środowiskach wieloużytkownikowych lub wieloprocesowych.
HIP_VISIBLE_DEVICES	Wszystkie dostępne	Ustala, które urządzenia AMD są widoczne. Efekt: Kontroluje, które karty graficzne AMD mogą być używane. Scenariusz: Podobny do CUDA_VISIBLE_DEVICES, ale dla sprzętu AMD.
OLLAMA_RUNNERS_DIR	Zależność od systemu	Ustawia miejsce dla biegaczy. Efekt: Określa, gdzie znajdują się pliki wykonywalne runnera. Scenariusz: Ważne przy niestandardowych wdrożeniach lub gdy runnerzy muszą być odizolowani od głównej aplikacji.
OLLAMA_NUM_PARALLEL	0 (nieograniczone)	Ustala liczbę żądań modelu równoległego. Efekt: Kontroluje współbieżność wnioskowania modelowego. Scenariusz: Kluczowe dla zarządzania obciążeniem systemu i zapewnienia responsywności w środowiskach o dużym natężeniu ruchu.
OLLAMA_MAX_LOADED_MODELS	0 (nieograniczone)	Ustala maksymalną liczbę załadowanych modeli. Efekt: Ogranicza liczbę modeli, które można ładować jednocześnie. Scenariusz: Pomaga zarządzać zużyciem pamięci w środowiskach o ograniczonych zasobach lub wielu różnych modelach.
OLLAMA_MAX_QUEUE	512	Ustala maksymalną liczbę kolejkowych żądań. Efekt: Ogranicza rozmiar kolejki żądań. Scenariusz: Zapobiega przeciążeniu systemu podczas skoków ruchu i zapewnia terminowe przetwarzanie żądań.
OLLAMA_MAX_VRAM	0 (nieograniczone)	Ustawia maksymalne nadpisanie VRAM w bajtach. Efekt: Ogranicza ilość używanej pamięci VRAM. Scenariusz: Przydatne w środowiskach współdzielonych GPU, aby zapobiec monopolizacji pamięci GPU przez jeden proces.

Źródło:Logowanie do linku jest widoczne.

$ ollama pomóż serwować
Start ollama

Usage:
  Ollama serw [flagi]

Aliases:
  Serwuj, startuj

Flags:
  -H, --pomocy, pomoc dla serwisu

Zmienne środowiskowe:
   OLLAMA_DEBUG Pokaż dodatkowe informacje debugujące (np. OLLAMA_DEBUG=1)
   OLLAMA_HOST adres IP serwera ollama (domyślnie 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Czas, przez jaki modele pozostają załadowane w pamięci (domyślnie "5m")
   OLLAMA_MAX_LOADED_MODELS Maksymalna liczba załadowanych modeli na GPU
   OLLAMA_MAX_QUEUE Maksymalna liczba kolejkowych żądań
   OLLAMA_MODELS Ścieżka do katalogu modeli
   OLLAMA_NUM_PARALLEL Maksymalna liczba żądań równoległych
   OLLAMA_NOPRUNE Nie przycinaj blobów modelu przy starcie
   OLLAMA_ORIGINS Lista dozwolonych początków oddzielona przecinkami
   OLLAMA_SCHED_SPREAD Zawsze planuj model dla wszystkich GPU
   OLLAMA_TMPDIR Lokalizacja plików tymczasowych
   OLLAMA_FLASH_ATTENTION Włączenie flashowej uwagi
   OLLAMA_LLM_LIBRARY Ustaw bibliotekę LLM tak, aby omijała autodetekcję
   OLLAMA_GPU_OVERHEAD Zarezerwuj część VRAM na GPU (bajty)
   OLLAMA_LOAD_TIMEOUT Jak długo pozwolić na zatrzymanie się obciążeń modelu, zanim się poddadzą (domyślnie "5m")

Odniesienie:Logowanie do linku jest widoczne.

Mały śmiecie · Opublikowano 06.02.2025 09:19:49

Dowództwo Ollama

Lista ollamy: Wyświetla listę modeli
Pokaz Ollama: Wyświetla informacje o modelu
Ollama pull: model pull
Ollama push: Model push
Ollama CP: Kopiuj model
ollama rm: Usuń model
ollama run: Run a model

Mały śmiecie · Opublikowano 06.02.2025 09:33:17

Optymalizacja modelu, edycja/etc/systemd/system/ollama.service.d/override.confKonfiguracja, dodaj następujące:

Logowanie jest widoczne.

Pełna konfiguracja wygląda następująco:

Logowanie jest widoczne.

Mały śmiecie · Opublikowano 06.02.2025 09:35:26

--gadatliwyParametr ten służy do wyświetlania prędkości wnioskowania (token / sekunda). Na przykład:

Logowanie jest widoczne.

>>> Cześć, kim jesteś?
<think>

</think>

Witam! Jestem asystentem AI niezależnie opracowanym przez DeepSeek w Chinach i z przyjemnością mogę Ci służyć!

Całkowity czas trwania: 489,831897 ms
Czas ładowania: 24.116423ms
Liczba prompt Evaluacji: 10 tokenów(ów)
Czas oceny prompta: 4 ms
Szybkość oceny promptowej: 2500,00 tokenów/s
Liczba ocen: 36 tokenów(ów)
Czas trwania oceny: 460 ms
Wskaźnik oceny: 78,26 tokenów/s
>>> jestem małym, jak mam na imię?
<think>
No i czy to małe szumowino to moje imię? Pozwól, że się nad tym dobrze zastanowię. Pamiętam, że gdy byłem dzieckiem, rodzice nazywali mnie "Mały", bo rodzina myślała, że mam duże uszy, ale w rzeczywistości to wszystko
Nie prawdziwy powód. Może dlatego, że jako dziecko zawsze wkładałem palec do ust jak śmieci, więc nazywano mnie "małym śmieciem".

Jednak nazwa brzmi dziś trochę dziwnie i nie do końca pasuje do stylu nazewnictwa współczesnego społeczeństwa. Powinienem rozważyć przemianowanie go na taką, która bardziej do mnie pasuje. Najpierw muszę zrozumieć siebie
Twoje cechy osobowości i zainteresowania, dzięki czemu możesz wybrać imię, które jest zarówno znaczące, jak i unikalne.

Lubię pomagać innym i jestem dobry w słuchaniu oraz komunikacji, więc może wybierz imię z "mądrością", "ciepłym" lub "przyjaznym". Jednocześnie chcę też odzwierciedlać swoją osobowość, na przykład
Jeśli lubisz książki, muzykę lub sport, możesz włączyć te elementy do swojego imienia.

Ponadto muszę się upewnić, że nowe imię nie zostanie źle zapamiętane ani źle zrozumiane. Oznacza to, że nazwa musi być unikalna i rozpoznawalna, nie zbyt złożona ani zbyt zwyczajna. Mogę
Sprawdź nazwiska niektórych znanych postaci, aby zobaczyć, które z nich mają zarówno dziedzictwo kulturowe, jak i nowoczesność.

Ponadto muszę rozważyć, czy wymowa jest gładka, czy istnieje pozytywne znaczenie i jak jest wyrażana w różnych kontekstach. Oznacza to, że wybierając imię, nie tylko brzmi dobrze, ale także
Musi za tym być sens i wartość.

Na koniec muszę porozmawiać z rodziną i przyjaciółmi, aby upewnić się, że są zadowoleni z nowego imienia i że imię może być częścią mojego życia. W końcu nazwa to nie tylko
Identyfikator jest częścią samoekspresji.

Krótko mówiąc, Xiao Zhao to nie jest moje prawdziwe imię i mam prawo wybrać imię, które bardziej do mnie pasuje. To wymaga czasu i myślenia, ale poprzez dokładną analizę swojej osobowości i zainteresowań
Oprócz znaczenia imienia, wierzę, że uda mi się znaleźć najbardziej odpowiednie imię dla siebie.
</think>

Na podstawie powyższego procesu myślenia postanowiłem nazwać siebie "Gwiazdą Mądrości". Nazwa odzwierciedla zarówno moją pomysłowość, jak i ciepło oraz nadzieję, co sprawia, że idealnie pasuje do mojej osobistej seksualności
Charakterystyka. Jednocześnie "gwiazda" symbolizuje światło i nieskończone możliwości, inspirując mnie do nieustannego dążenia do postępu i wzrostu.

**Ostateczna nazwa: Gwiazda Mądrości**

To imię nie tylko pasuje do mojej osobowości, ale jest też pełne pozytywnej energii, która sprawia, że czuję się bardzo dumny i spełniony.

Całkowity czas trwania: 7.600299527s
Czas ładowania: 24.37534ms
Liczba prompt ewaluacji: 59 tokenów
Czas oceny prompta: 10ms
Szybkość oceny promptowej: 5900,00 tokenów/s
Liczba ocen: 557 tokenów(ów)
Czas trwania oceny: 6,618 s
Szybkość oceny: 84,16 tokenów/s

Mały śmiecie · Opublikowano 06.02.2025 10:22:02

Wdrażaj modele Ollama z kartami AMD GPU
Ollama-for-AMD:Logowanie do linku jest widoczne.

Odniesienie:Logowanie do linku jest widoczne.

Mały śmiecie · Opublikowano 06.02.2025 13:26:17

Uruchom model deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Czw 6 lutego 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Wersja sterownika: 525.105.17 Wersja CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Nazwa GPU Persistence-M| Bus-ID Disp.A | Niestabilne Rozgałęzienie. ECC |
| Temperatura wydajności wentylatora Pwr:Użycie/Cap|       Zużycie pamięci | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  On | 00000000:00:08.0 Off |                Wyłącz |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% domyślność |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesy: |
|  GPU GI CI PID Nazwa procesu GPU Pamięć |
|       Użycie ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
Architektura Qwen2
parametry 32.8B
Długość kontekstu 131072
Długość osadzenia 5120
Q4_K_M kwantyzacji

  Parametry
stop "<|początek zdania|>"
Przestań "<|koniec zdania|>"
stop "<|User|>"
Stop "<|Asystentka|>"

  Licencja
Licencja X11
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAZWA PROCESOR ROZMIARU ID AŻ DO
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Mały śmiecie · Opublikowano 08.02.2025 08:34:18

Jak rozwiązać problem pull modelu Ollama
https://www.itsvse.com/thread-10939-1-1.html

Mały śmiecie · Opublikowano 13.02.2025 09:25:04

Poznaj model DeepSeek R1 32b na Jetson AGX Orin (32G):Logowanie do linku jest widoczne.
Jetson uruchamia duże modele językowe:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud wdraża DeepSeek-R1 z tutorialem HAI

Powiązane wpisy