Ten artykuł jest lustrzanym artykułem tłumaczenia maszynowego, kliknij tutaj, aby przejść do oryginalnego artykułu.

Widok: 2394|Odpowiedź: 10

【AI】(3) Tencent Cloud wdraża DeepSeek-R1 z tutorialem HAI

[Skopiuj link]
Opublikowano 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) to produkt usług aplikacji GPU dla AI i obliczeń naukowych, oferujący moc obliczeniową typu plug-and-play oraz wspólne środowiska, które pomagają małym i średnim przedsiębiorstwom oraz deweloperom szybko wdrażać LLM.

Adres:Logowanie do linku jest widoczne.

HAI vs serwery GPU

Znacznie obniż próg korzystania z serwera w chmurze GPU, zoptymalizuj doświadczenie produktu z wielu perspektyw i korzystaj z niego od razu, jak pokazano na poniższym rysunku:



Zakup mocy obliczeniowej HAI

Wejdź na stronę zakupu, wybierz obraz środowiska podstawowego "Ubuntu 20.04" i skonfiguruj środowisko:Ubuntu 20.04, sterownik 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Obraz już zainstalował sterownik dla nas i wybieramy płatności w trakcie użytkowania, jak pokazano na poniższym rysunku:



Pamięć wideo: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 rdzeni
RAM: 40GB

Po kilku minutach instancja zostaje pomyślnie utworzona, a Academic Acceleration włączona, jak pokazano na poniższym rysunku:



Za pierwszym razem musisz zresetować hasło, a nazwa użytkownika logowania to:Ubuntu。 Spróbuj zalogować się na serwer i sprawdzić informacje o sterowniku karty NVIDIA za pomocą następującego polecenia:


Jak pokazano poniżej:


Instaluj Ollamę

Oficjalna strona Ollama:Logowanie do linku jest widoczne.

Zaloguj się na serwer za pomocą narzędzia putty i rozpocznij instalację narzędzia Ollama za pomocą następującego polecenia:


Instalacja jest zakończona, a wyjście wygląda następująco:
>>> Instalacja ollama na /usr/local
>>> Pobieranie pakietu amd64 na Linuksa
######################################################################## 100.0%
>>> Tworzenie użytkownika ollama...
>>> Dodanie użytkownika ollama do grupy renderującej...
>>> Dodanie użytkownika ollama do grupy wideo...
>>> Dodaję obecnego użytkownika do grupy ollama...
>>> Tworzenie usługi ollama systemd...
>>> Uruchomienie i uruchomienie usługi ollamy...
Utworzono symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Sprawdź polecenie version: ollama -v
Zobacz model, który jest obecnie ładowany do pamięci: ollama ps

Stwórz niestandardowy folder pamięci do przechowywania modelu za pomocą następującego polecenia:

Zmodyfikuj domyślny adres nasłuchu i ścieżkę pamięci modelu (nie możesz zmodyfikować domyślnego portu, w przeciwnym razie polecenie się nie powiedzie) i użyj następujących poleceń:


Wdrożenie modelu deepseek-r1

Uruchom model deepseek-r1:8b z następującym poleceniem:


Jak pokazano poniżej:



Przetestuj dialog zgodnie z poniższymi wskazówkami:



Zapora zwalnia port TCP 11434 i wywołuje interfejs HTTP, jak pokazano na poniższym rysunku:



{
  "modele": [
    {
      "Nazwa": "Deepseek-R1:8B",
      "Model": "Deepseek-R1:8B",
      "rozmiar": 6930032640,
      "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "szczegóły": {
        "parent_model": "",
        "format": "gguf",
        "rodzina": "lama",
        "rodziny": [
          "Lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Odniesienie:
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.
Logowanie do linku jest widoczne.




Poprzedni:[AI] (2) Różnica między wersjami DeepSeek-V3 a R1
Następny:[AI] (4) Użyj Open WebUI do wywołania modelu DeepSeek-R1
 Ziemianin| Opublikowano 2025-2-5 21:22:49 |
Jeśli model nie otrzymuje żądań lub wejść przez pewien czas, Ollama automatycznie kończy model w centrum chmurowym, aby zaoszczędzić zasoby.
 Ziemianin| Opublikowano 2025-2-6 09:03:57 |
Element konfiguracji zmiennej środowiskowej ollama

ZmiennaDomyślna wartośćOpis + Efekt + Scenariusz
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Logowanie do linku jest widoczne."Konfiguruje hosta i schemat serwera Ollama. Efekt: Określa adres URL używany do łączenia się z serwerem Ollama. Scenariusz: Przydatne przy wdrażaniu Ollama w środowisku rozproszonym lub gdy musisz udostępnić usługę na konkretnym interfejsie sieciowym.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfiguruje dozwolone początki dla CORS. Efekt: Kontroluje, które źródła mogą wysyłać żądania do serwera Ollama. Scenariusz: Kluczowe przy integracji Ollama z aplikacjami webowymi, aby zapobiec nieautoryzowanemu dostępowi z różnych domen.
OLLAMA_MODELS$HOME/.ollama/modelsUstawia ścieżkę do katalogu modeli. Efekt: Określa, skąd pliki modeli są przechowywane i ładowane. Scenariusz: Przydatne do zarządzania przestrzenią dyskową na różnych dyskach lub tworzenia współdzielonych repozytoriów modeli w środowiskach wieloużytkownikowych.
OLLAMA_KEEP_ALIVE5 minutOkreśla, jak długo modele pozostają załadowane w pamięci. Efekt: Kontroluje, że modele czasu trwania pozostają w pamięci po użyciu. Scenariusz: Dłuższe czasy pracy poprawiają czas odpowiedzi na częste zapytania, ale zwiększają zużycie pamięci. Krótsze czasy uwalniają zasoby, ale mogą wydłużyć czas początkowej reakcji.
OLLAMA_DEBUGfalseUmożliwia dodatkowe informacje debugujące. Efekt: Zwiększa rozwlekłość logowania i debugowania. Scenariusz: Nieoceniony do rozwiązywania problemów lub zrozumienia zachowania systemu podczas rozwoju lub wdrożenia.
OLLAMA_FLASH_ATTENTIONfalseWłącza eksperymentalną funkcję błysku uwagi. Efekt: Aktywuje eksperymentalną optymalizację mechanizmów uwagi. Scenariusz: Może potencjalnie poprawić wydajność na kompatybilnym sprzęcie, ale może wprowadzać niestabilność.
OLLAMA_NOHISTORYfalseWyłącza historię czytania linii. Efekt: Zapobiega zapisywaniu historii poleceń. Scenariusz: Przydatny w środowiskach wrażliwych na bezpieczeństwo, gdzie historia poleceń nie powinna być utrwalana.
OLLAMA_NOPRUNEfalseWyłącza przycinanie blobów modelu przy starcie. Efekt: Zachowuje wszystkie bloby modelu, co potencjalnie zwiększa zużycie dysku. Scenariusz: Pomocne, gdy trzeba utrzymywać wszystkie wersje modelu ze względu na kompatybilność lub cofanie modelu.
OLLAMA_SCHED_SPREADfalsePozwala na planowanie modeli na wszystkich GPU. Efekt: Umożliwia wykorzystanie wielu GPU do wnioskowania modelowego. Scenariusz: Korzystne w środowiskach wysokowydajnych obliczeniowych z wieloma GPU, aby zmaksymalizować wykorzystanie sprzętu.
OLLAMA_INTEL_GPUfalseUmożliwia eksperymentalne wykrywanie karty Intel GPU. Efekt: Umożliwia wykorzystanie procesorów Intel do wnioskowania modeli. Scenariusz: Przydatne dla organizacji wykorzystujących sprzęt Intel GPU do zadań AI.
OLLAMA_LLM_LIBRARY"" (automatyczne wykrywanie)Ustawia bibliotekę LLM do użycia. Efekt: Nadpisuje automatyczne wykrywanie biblioteki LLM. Scenariusz: Przydatne, gdy trzeba wymusić konkretną wersję lub implementację biblioteki ze względów kompatybilności lub wydajności.
OLLAMA_TMPDIRDomyślny katalog tymczasowy systemuUstawia lokalizację dla plików tymczasowych. Efekt: Określa, gdzie przechowywane są pliki tymczasowe. Scenariusz: Ważne dla zarządzania wydajnością I/O lub gdy katalog tymczasowy systemu ma ograniczoną przestrzeń.
CUDA_VISIBLE_DEVICESWszystkie dostępneUstawia, które urządzenia NVIDIA są widoczne. Efekt: Kontroluje, które karty graficzne NVIDIA mogą być używane. Scenariusz: Kluczowe dla zarządzania alokacją GPU w środowiskach wieloużytkownikowych lub wieloprocesowych.
HIP_VISIBLE_DEVICESWszystkie dostępneUstala, które urządzenia AMD są widoczne. Efekt: Kontroluje, które karty graficzne AMD mogą być używane. Scenariusz: Podobny do CUDA_VISIBLE_DEVICES, ale dla sprzętu AMD.
OLLAMA_RUNNERS_DIRZależność od systemuUstawia miejsce dla biegaczy. Efekt: Określa, gdzie znajdują się pliki wykonywalne runnera. Scenariusz: Ważne przy niestandardowych wdrożeniach lub gdy runnerzy muszą być odizolowani od głównej aplikacji.
OLLAMA_NUM_PARALLEL0 (nieograniczone)Ustala liczbę żądań modelu równoległego. Efekt: Kontroluje współbieżność wnioskowania modelowego. Scenariusz: Kluczowe dla zarządzania obciążeniem systemu i zapewnienia responsywności w środowiskach o dużym natężeniu ruchu.
OLLAMA_MAX_LOADED_MODELS0 (nieograniczone)Ustala maksymalną liczbę załadowanych modeli. Efekt: Ogranicza liczbę modeli, które można ładować jednocześnie. Scenariusz: Pomaga zarządzać zużyciem pamięci w środowiskach o ograniczonych zasobach lub wielu różnych modelach.
OLLAMA_MAX_QUEUE512Ustala maksymalną liczbę kolejkowych żądań. Efekt: Ogranicza rozmiar kolejki żądań. Scenariusz: Zapobiega przeciążeniu systemu podczas skoków ruchu i zapewnia terminowe przetwarzanie żądań.
OLLAMA_MAX_VRAM0 (nieograniczone)Ustawia maksymalne nadpisanie VRAM w bajtach. Efekt: Ogranicza ilość używanej pamięci VRAM. Scenariusz: Przydatne w środowiskach współdzielonych GPU, aby zapobiec monopolizacji pamięci GPU przez jeden proces.


Źródło:Logowanie do linku jest widoczne.

$ ollama pomóż serwować
Start ollama

Usage:
  Ollama serw [flagi]

Aliases:
  Serwuj, startuj

Flags:
  -H, --pomocy, pomoc dla serwisu

Zmienne środowiskowe:
      OLLAMA_DEBUG Pokaż dodatkowe informacje debugujące (np. OLLAMA_DEBUG=1)
      OLLAMA_HOST adres IP serwera ollama (domyślnie 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Czas, przez jaki modele pozostają załadowane w pamięci (domyślnie "5m")
      OLLAMA_MAX_LOADED_MODELS Maksymalna liczba załadowanych modeli na GPU
      OLLAMA_MAX_QUEUE Maksymalna liczba kolejkowych żądań
      OLLAMA_MODELS Ścieżka do katalogu modeli
      OLLAMA_NUM_PARALLEL Maksymalna liczba żądań równoległych
      OLLAMA_NOPRUNE Nie przycinaj blobów modelu przy starcie
      OLLAMA_ORIGINS Lista dozwolonych początków oddzielona przecinkami
      OLLAMA_SCHED_SPREAD Zawsze planuj model dla wszystkich GPU
      OLLAMA_TMPDIR Lokalizacja plików tymczasowych
      OLLAMA_FLASH_ATTENTION Włączenie flashowej uwagi
      OLLAMA_LLM_LIBRARY Ustaw bibliotekę LLM tak, aby omijała autodetekcję
      OLLAMA_GPU_OVERHEAD Zarezerwuj część VRAM na GPU (bajty)
      OLLAMA_LOAD_TIMEOUT Jak długo pozwolić na zatrzymanie się obciążeń modelu, zanim się poddadzą (domyślnie "5m")


Odniesienie:Logowanie do linku jest widoczne.
 Ziemianin| Opublikowano 2025-2-6 09:19:49 |
Dowództwo Ollama

Lista ollamy: Wyświetla listę modeli
Pokaz Ollama: Wyświetla informacje o modelu
Ollama pull: model pull
Ollama push: Model push
Ollama CP: Kopiuj model
ollama rm: Usuń model
ollama run: Run a model
 Ziemianin| Opublikowano 2025-2-6 09:33:17 |
Optymalizacja modelu, edycja/etc/systemd/system/ollama.service.d/override.confKonfiguracja, dodaj następujące:


Pełna konfiguracja wygląda następująco:



 Ziemianin| Opublikowano 2025-2-6 09:35:26 |
--gadatliwyParametr ten służy do wyświetlania prędkości wnioskowania (token / sekunda). Na przykład:

>>> Cześć, kim jesteś?
<think>

</think>

Witam! Jestem asystentem AI niezależnie opracowanym przez DeepSeek w Chinach i z przyjemnością mogę Ci służyć!

Całkowity czas trwania: 489,831897 ms
Czas ładowania: 24.116423ms
Liczba prompt Evaluacji: 10 tokenów(ów)
Czas oceny prompta: 4 ms
Szybkość oceny promptowej: 2500,00 tokenów/s
Liczba ocen: 36 tokenów(ów)
Czas trwania oceny: 460 ms
Wskaźnik oceny: 78,26 tokenów/s
>>> jestem małym, jak mam na imię?
<think>
No i czy to małe szumowino to moje imię? Pozwól, że się nad tym dobrze zastanowię. Pamiętam, że gdy byłem dzieckiem, rodzice nazywali mnie "Mały", bo rodzina myślała, że mam duże uszy, ale w rzeczywistości to wszystko
Nie prawdziwy powód. Może dlatego, że jako dziecko zawsze wkładałem palec do ust jak śmieci, więc nazywano mnie "małym śmieciem".

Jednak nazwa brzmi dziś trochę dziwnie i nie do końca pasuje do stylu nazewnictwa współczesnego społeczeństwa. Powinienem rozważyć przemianowanie go na taką, która bardziej do mnie pasuje. Najpierw muszę zrozumieć siebie
Twoje cechy osobowości i zainteresowania, dzięki czemu możesz wybrać imię, które jest zarówno znaczące, jak i unikalne.

Lubię pomagać innym i jestem dobry w słuchaniu oraz komunikacji, więc może wybierz imię z "mądrością", "ciepłym" lub "przyjaznym". Jednocześnie chcę też odzwierciedlać swoją osobowość, na przykład
Jeśli lubisz książki, muzykę lub sport, możesz włączyć te elementy do swojego imienia.

Ponadto muszę się upewnić, że nowe imię nie zostanie źle zapamiętane ani źle zrozumiane. Oznacza to, że nazwa musi być unikalna i rozpoznawalna, nie zbyt złożona ani zbyt zwyczajna. Mogę
Sprawdź nazwiska niektórych znanych postaci, aby zobaczyć, które z nich mają zarówno dziedzictwo kulturowe, jak i nowoczesność.

Ponadto muszę rozważyć, czy wymowa jest gładka, czy istnieje pozytywne znaczenie i jak jest wyrażana w różnych kontekstach. Oznacza to, że wybierając imię, nie tylko brzmi dobrze, ale także
Musi za tym być sens i wartość.

Na koniec muszę porozmawiać z rodziną i przyjaciółmi, aby upewnić się, że są zadowoleni z nowego imienia i że imię może być częścią mojego życia. W końcu nazwa to nie tylko
Identyfikator jest częścią samoekspresji.

Krótko mówiąc, Xiao Zhao to nie jest moje prawdziwe imię i mam prawo wybrać imię, które bardziej do mnie pasuje. To wymaga czasu i myślenia, ale poprzez dokładną analizę swojej osobowości i zainteresowań
Oprócz znaczenia imienia, wierzę, że uda mi się znaleźć najbardziej odpowiednie imię dla siebie.
</think>

Na podstawie powyższego procesu myślenia postanowiłem nazwać siebie "Gwiazdą Mądrości". Nazwa odzwierciedla zarówno moją pomysłowość, jak i ciepło oraz nadzieję, co sprawia, że idealnie pasuje do mojej osobistej seksualności
Charakterystyka. Jednocześnie "gwiazda" symbolizuje światło i nieskończone możliwości, inspirując mnie do nieustannego dążenia do postępu i wzrostu.

**Ostateczna nazwa: Gwiazda Mądrości**

To imię nie tylko pasuje do mojej osobowości, ale jest też pełne pozytywnej energii, która sprawia, że czuję się bardzo dumny i spełniony.

Całkowity czas trwania: 7.600299527s
Czas ładowania: 24.37534ms
Liczba prompt ewaluacji: 59 tokenów
Czas oceny prompta: 10ms
Szybkość oceny promptowej: 5900,00 tokenów/s
Liczba ocen: 557 tokenów(ów)
Czas trwania oceny: 6,618 s
Szybkość oceny: 84,16 tokenów/s

 Ziemianin| Opublikowano 2025-2-6 10:22:02 |
Wdrażaj modele Ollama z kartami AMD GPU
Ollama-for-AMD:Logowanie do linku jest widoczne.

Odniesienie:Logowanie do linku jest widoczne.
 Ziemianin| Opublikowano 2025-2-6 o 13:26:17 |
Uruchom model deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Czw 6 lutego 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Wersja sterownika: 525.105.17 Wersja CUDA: 12.0 |
|-------------------------------+----------------------+----------------------+
| Nazwa GPU Persistence-M| Bus-ID Disp.A | Niestabilne Rozgałęzienie. ECC |
| Temperatura wydajności wentylatora Pwr:Użycie/Cap|         Zużycie pamięci | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  On | 00000000:00:08.0 Off |                  Wyłącz |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% domyślność |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Procesy: |
|  GPU GI CI PID Nazwa procesu GPU Pamięć |
|        Użycie ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Model
    Architektura Qwen2
    parametry 32.8B
    Długość kontekstu 131072
    Długość osadzenia 5120
    Q4_K_M kwantyzacji

  Parametry
    stop "<|początek zdania|>"
    Przestań "<|koniec zdania|>"
    stop "<|User|>"
    Stop "<|Asystentka|>"

  Licencja
    Licencja X11
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAZWA PROCESOR ROZMIARU ID AŻ DO
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Ziemianin| Opublikowano 2025-2-8 08:34:18 |
Jak rozwiązać problem pull modelu Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Ziemianin| Opublikowano 2025-2-13 09:25:04 |
Poznaj model DeepSeek R1 32b na Jetson AGX Orin (32G):Logowanie do linku jest widoczne.
Jetson uruchamia duże modele językowe:https://www.jetson-ai-lab.com/models.html

Zrzeczenie się:
Całe oprogramowanie, materiały programistyczne lub artykuły publikowane przez Code Farmer Network służą wyłącznie celom edukacyjnym i badawczym; Powyższe treści nie mogą być wykorzystywane do celów komercyjnych ani nielegalnych, w przeciwnym razie użytkownicy ponoszą wszelkie konsekwencje. Informacje na tej stronie pochodzą z Internetu, a spory dotyczące praw autorskich nie mają z nią nic wspólnego. Musisz całkowicie usunąć powyższą zawartość z komputera w ciągu 24 godzin od pobrania. Jeśli spodoba Ci się program, wspieraj oryginalne oprogramowanie, kup rejestrację i korzystaj z lepszych, autentycznych usług. W przypadku naruszenia praw prosimy o kontakt mailowy.

Mail To:help@itsvse.com