【AI】(3) Tencent Cloud distribuerar DeepSeek-R1 med HAI-handledning

Lilla avskum · Publicerad på 2025-02-05 21:14:04

Hyper Application Inventor (HAI) är en GPU-applikationstjänst för AI och vetenskaplig databehandling, som tillhandahåller plug-and-play-datorkraft och gemensamma miljöer för att hjälpa små och medelstora företag och utvecklare att snabbt implementera LLM:er.

Adress:Inloggningen med hyperlänken är synlig.

HAI vs GPU-servrar

Minska tröskeln för användning av GPU-molnservrar avsevärt, optimera produktupplevelsen från flera vinklar och använd det direkt, som visas i figuren nedan:

Köp HAI-datorkraft

Gå till köpsidan, välj den grundläggande miljöavbilden "Ubuntu 20.04" och konfigurera miljön:Ubuntu 20.04, drivrutin 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Bilden har redan installerat drivrutinen åt oss, och vi väljer att betala efter behov, som visas i figuren nedan:

Videominne: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 kärnor
RAM: 40GB

Efter att ha väntat några minuter skapas instansen framgångsrikt och Academic Acceleration aktiveras, som visas i följande figur:

Första gången du använder den måste du återställa ditt lösenord, och inloggningsanvändarnamnet är:ubuntu。 Prova att logga in på servern och kontrollera NVIDIA GPU-drivrutinsinformationen med följande kommando:

Inloggningen är synlig.

Som visas nedan:

Installera Ollama

Ollama officiella webbplats:Inloggningen med hyperlänken är synlig.

Logga in på servern med kittverktyget och börja installera Olama-verktyget med följande kommando:

Inloggningen är synlig.

Installationen är klar och resultatet är som följer:

>>> Installera ollama till /usr/local
>>> Nedladdning av Linux amd64-paket
######################################################################## 100.0%
>>> Skapar ollama-användare...
>>> Lägger till ollama-användare för renderingsgruppen...
>>> Lägger till ollama-användare i videogruppen...
>>> Lägger till nuvarande användare i ollama-gruppen...
>>> Skapar ollama systemd-tjänst...
>>> Aktiverar och startar ollama-tjänsten...
Skapade symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Kolla in versionskommandot: ollama -v
Se modellen som för närvarande laddas in i minnet: ollama ps

Skapa en egen modelllagringsmapp med följande kommando:

Inloggningen är synlig.

Ändra standard-lyssningsadressen och modelllagringsvägen (du kan inte ändra standardporten, annars misslyckas kommandot) och använd följande kommandon:

Inloggningen är synlig.

Implementera deepseek-r1-modellen

Kör deepseek-r1:8b-modellen med följande kommando:

Inloggningen är synlig.

Som visas nedan:

Testa dialogen enligt nedan:

Brandväggen släpper TCP-port 11434 och anropar HTTP-gränssnittet, som visas i följande figur:

{
  "Modeller": [
{
   "Namn": "Deepseek-R1:8b",
   "modell": "deepseek-r1:8b",
   "storlek": 6930032640,
   "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detaljer": {
      "parent_model": "",
      "format": "gguf",
      "familj": "lama",
      "Familjer": [
      "lama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Hänvisning:
Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2025-02-05 21:22:49

Om modellen inte tar emot förfrågningar eller indata under en viss tid, avslutar Ollama automatiskt modellen i molncentret för att spara resurser.

Lilla avskum · Publicerad på 2025-02-06 09:03:57

Ollama miljövariabelkonfigurationsobjekt

Variabel	Standardvärde	Beskrivning + Effekt + Scenario
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]Inloggningen med hyperlänken är synlig."	Konfigurerar värden och schemat för Olama-servern. Effekt: Bestämmer URL:en som används för att ansluta till Olama-servern. Scenario: Användbart vid distribution av Ollama i en distribuerad miljö eller när du behöver exponera tjänsten på ett specifikt nätverksgränssnitt.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Konfigureringar möjliggjorde ursprung för CORS. Effekt: Kontrollerar vilka ursprung som får göra förfrågningar till Olama-servern. Scenario: Avgörande vid integration av Ollama med webbapplikationer för att förhindra obehörig åtkomst från olika domäner.
OLLAMA_MODELS	$HOME/.ollama/modeller	Sätter sökvägen till modellkatalogen. Effekt: Bestämmer varifrån modellfiler lagras och laddas. Scenario: Användbart för att hantera diskutrymme på olika enheter eller för att sätta upp delade modellarkiv i fleranvändarmiljöer.
OLLAMA_KEEP_ALIVE	5 minuter	Sätter hur länge modeller förblir laddade i minnet. Effekt: Kontrollerar varaktighetsmodellerna förblir i minnet efter användning. Scenario: Längre varaktigheter förbättrar svarstider för frekventa förfrågningar men ökar minnesanvändningen. Kortare tider frigör resurser men kan öka de initiala svarstiderna.
OLLAMA_DEBUG	false	Möjliggör ytterligare felsökningsinformation. Effekt: Ökar utförsamheten i loggning och felsökning. Scenario: Ovärderligt för att felsöka problem eller förstå systemets beteende under utveckling eller driftsättning.
OLLAMA_FLASH_ATTENTION	false	Möjliggör experimentell flash-uppmärksamhetsfunktion. Effekt: Aktiverar en experimentell optimering för uppmärksamhetsmekanismer. Scenario: Kan potentiellt förbättra prestandan på kompatibel hårdvara men kan skapa instabilitet.
OLLAMA_NOHISTORY	false	Inaktiverar läslinjehistorik. Effekt: Förhindrar att kommandohistorik sparas. Scenario: Användbart i säkerhetskänsliga miljöer där kommandohistorik inte bör bevaras.
OLLAMA_NOPRUNE	false	Inaktiverar beskärning av modellblobs vid uppstart. Effekt: Behåller alla modellblobs, vilket potentiellt ökar diskanvändningen. Scenario: Hjälpsamt när du behöver underhålla alla modellversioner för kompatibilitet eller återställning.
OLLAMA_SCHED_SPREAD	false	Möjliggör schemaläggning av modeller över alla GPU:er. Effekt: Möjliggör användning av flera GPU:er för modellinferens. Scenario: Fördelaktigt i högpresterande datormiljöer med flera GPU:er för att maximera hårdvaruanvändningen.
OLLAMA_INTEL_GPU	false	Möjliggör experimentell Intel GPU-detektering. Effekt: Tillåter användning av Intel-GPU:er för modellinferens. Scenario: Användbart för organisationer som utnyttjar Intel GPU-hårdvara för AI-arbetsbelastningar.
OLLAMA_LLM_LIBRARY	"" (auto-detekter)	Ställer in LLM-biblioteket att använda. Effekt: Åsidosätter automatisk detektering av LLM-biblioteket. Scenario: Användbart när du behöver tvinga fram en specifik biblioteksversion eller implementation av kompatibilitets- eller prestandaskäl.
OLLAMA_TMPDIR	Systemstandard temp-katalog	Ställer in platsen för temporära filer. Effekt: Bestämmer var temporära filer lagras. Scenario: Viktigt för att hantera I/O-prestanda eller när systemets tempkatalog har begränsat utrymme.
CUDA_VISIBLE_DEVICES	Alla tillgängliga	Sätter vilka NVIDIA-enheter som är synliga. Effekt: Styr vilka NVIDIA-GPU:er som kan användas. Scenario: Kritiskt för att hantera GPU-allokering i multi-användar- eller multiprocessmiljöer.
HIP_VISIBLE_DEVICES	Alla tillgängliga	Sätter vilka AMD-enheter som är synliga. Effekt: Styr vilka AMD-GPU:er som kan användas. Scenario: Liknande CUDA_VISIBLE_DEVICES men för AMD-hårdvara.
OLLAMA_RUNNERS_DIR	Systemberoende	Bestämmer platsen för löparna. Effekt: Bestämmer var löparens körbara filer finns. Scenario: Viktigt för anpassade distributioner eller när runners behöver isoleras från huvudapplikationen.
OLLAMA_NUM_PARALLEL	0 (obegränsat)	Sätter antalet parallella modellförfrågningar. Effekt: Kontrollerar samtidighet av modellinferens. Scenario: Kritiskt för att hantera systembelastningen och säkerställa respons i miljöer med hög trafik.
OLLAMA_MAX_LOADED_MODELS	0 (obegränsat)	Sätter det maximala antalet laddade modeller. Effekt: Begränsar antalet modeller som kan laddas samtidigt. Scenario: Hjälper till att hantera minnesanvändning i miljöer med begränsade resurser eller många olika modeller.
OLLAMA_MAX_QUEUE	512	Sätter det maximala antalet köade förfrågningar. Effekt: Begränsar storleken på förfrågningskön. Scenario: Förhindrar systemöverbelastning under trafiktoppar och säkerställer snabb hantering av förfrågningar.
OLLAMA_MAX_VRAM	0 (obegränsat)	Sätter en maximal VRAM-överskrivning i bytes. Effekt: Begränsning av hur mycket VRAM som kan användas. Scenario: Användbart i delade GPU-miljöer för att förhindra att en enskild process monopoliserar GPU-minnet.

Källa:Inloggningen med hyperlänken är synlig.

$ ollama hjälp till tjänst
Start ollama

Usage:
  Olama-serv [flaggor]

Aliases:
  Serve, börja

Flags:
  -H, --hjälp hjälp för tjänst

Miljövariabler:
   OLLAMA_DEBUG Visa ytterligare felsökningsinformation (t.ex. OLLAMA_DEBUG=1)
   OLLAMA_HOST IP-adress för ollama-servern (standard 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE Den tid modellerna förblir laddade i minnet (standard "5m")
   OLLAMA_MAX_LOADED_MODELS Maximalt antal laddade modeller per GPU
   OLLAMA_MAX_QUEUE Maximalt antal köade förfrågningar
   OLLAMA_MODELS Vägen till modellkatalogen
   OLLAMA_NUM_PARALLEL Maximalt antal parallella förfrågningar
   OLLAMA_NOPRUNE Beskär inte modellblobs vid uppstart
   OLLAMA_ORIGINS En komma-separerad lista över tillåtna ursprung
   OLLAMA_SCHED_SPREAD Schemalägg alltid modellen över alla GPU:er
   OLLAMA_TMPDIR Plats för temporära filer
   OLLAMA_FLASH_ATTENTION Aktiverade flash-uppmärksamhet
   OLLAMA_LLM_LIBRARY Ställ in LLM-biblioteket för att kringgå autodetektering
   OLLAMA_GPU_OVERHEAD Reservera en del VRAM per GPU (byte)
   OLLAMA_LOAD_TIMEOUT Hur länge ska modelllasterna stanna innan man ger upp (standard "5m")

Hänvisning:Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2025-02-06 09:19:49

Ollama Command

ollama-lista: Visar en lista över modeller
Olama-show: Visar information om modellen
Ollama Pull: Pull-modell
ollama push: Push-modell
Ollama CP: kopiera en modell
ollama rm: Ta bort en modell
ollama run: Kör en modell

Lilla avskum · Publicerad på 2025-02-06 09:33:17

Modelloptimering, redigering/etc/systemd/system/ollama.service.d/override.confkonfiguration, lägg till följande:

Inloggningen är synlig.

Den fullständiga konfigurationen är följande:

Inloggningen är synlig.

Lilla avskum · Publicerad på 2025-02-06 09:35:26

--mångordigParametern används för att visa inferenshastigheten (token / sekund). Till exempel:

Inloggningen är synlig.

>>> Hej, vem är du?
<think>

</think>

Hej! Jag är en AI-assistent som självständigt utvecklats av DeepSeek i Kina, och jag är glad att kunna hjälpa dig!

Total varaktighet: 489,831897ms
Laddningstid: 24,116423 ms
Prompt utvärdering: 10 token(ar)
Promptutvärderingstid: 4 ms
Snabb utvärderingsfrekvens: 2500,00 tokens/s
Utvärderingsantal: 36 token(ar)
utvärderingstid: 460 ms
Utvärderingsfrekvens: 78,26 tokens/s
>>> jag är en liten skitstövel, vad heter jag?
<think>
Nå, är lilla avskum mitt namn? Låt mig tänka noga på det. Jag minns när jag var barn kallade mina föräldrar mig "Lilla Skurken" eftersom min familj trodde att jag hade stora öron, men i själva verket var det allt
Inte den verkliga anledningen. Kanske är det för att jag som barn alltid stoppade fingret i munnen som skräp, så jag kallades "lilla avskum".

Men namnet låter lite konstigt nu, och det passar inte riktigt in i dagens samhälles namnstil. Jag borde överväga att byta namn till ett namn som passar mig bättre. Först måste jag förstå mig själv
Dina personlighetsdrag och intressen, så att du kan välja ett namn som är både meningsfullt och unikt.

Jag gillar att hjälpa andra och är bra på att lyssna och kommunicera, så kanske välj ett namn med "visdom", "varm" eller "vänlig". Samtidigt vill jag också spegla min personlighet, såsom
Om du gillar böcker, musik eller sport kan du införliva dessa element i ditt namn.

Dessutom måste jag försäkra mig om att det nya namnet inte blir felihågkommet eller missförstått. Det betyder att namnet måste vara unikt och igenkännbart, inte för komplext eller för vanligt. Jag kan
Titta på namnen på några välkända personer för att se vilka som har både kulturellt arv och modernitet.

Dessutom behöver jag överväga om uttalet är mjukt, om det finns en positiv betydelse och hur det uttrycks i olika sammanhang. Det betyder att när man väljer namn låter man inte bara bra, utan också
Det måste finnas mening och värde bakom det.

Slutligen behöver jag kommunicera med min familj och mina vänner för att se till att de är nöjda med det nya namnet och att namnet kan bli en del av mitt liv. Namnet är ju inte bara
identifierare är en del av självuttrycket.

Kort sagt, Xiao Zhao är inte mitt riktiga namn, och jag har rätt att välja ett namn som passar mig bättre. Det tar tid och eftertanke, men genom att noggrant analysera din personlighet och dina intressen
Förutom namnets betydelse tror jag att jag kommer att kunna hitta det mest passande namnet för mig själv.
</think>

Baserat på ovanstående tankesätt bestämde jag mig för att kalla mig "Visdomsstjärnan". Namnet speglar både min uppfinningsrikedom, värme och hopp, vilket gör det till en perfekt match för min personliga sexualitet
Karakteristika. Samtidigt symboliserar "stjärnan" ljus och oändliga möjligheter, vilket inspirerar mig att ständigt sträva efter framsteg och tillväxt.

**Slutgiltigt namn: Visdomsstjärna**

Det här namnet passar inte bara min personlighet, utan är också fullt av positiv energi som får mig att känna mig mycket stolt och tillfredsställd.

Total varaktighet: 7.600299527s
Laddningstid: 24,37534 ms
Prompt utvärdering: 59 token(ar)
Promptutvärderingens längd: 10 ms
Snabb utvärderingsfrekvens: 5900,00 tokens/s
Utvärdering: 557 token(ar)
utvärderingstid: 6,618 sekunder
utvärderingsfrekvens: 84,16 tokens/s

Lilla avskum · Publicerad på 2025-02-06 10:22:02

Distribuera ollama-modeller med AMD-grafikkort
Ollama-för-AMD:Inloggningen med hyperlänken är synlig.

Hänvisning:Inloggningen med hyperlänken är synlig.

Lilla avskum · Publicerad på 2025-02-06 13:26:17

Kör deepseek-r1:32b-modellen

root@VM-0-8-ubuntu:~# nvidia-smi
Tor 6 feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Drivrutinsversion: 525.105.17 CUDA-version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU-namn persistens-M| Bus-ID Disp.A | Volatil Uncorr. ECC |
| Fläkttemperaturprestanda Pwr:Användning/kondensator|       Minnesanvändning | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  På | 000000000:00:08.0 Av |                Off |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% Default |
|                            |                   |                Ej till svaret |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processer: |
|  GPU GI CI PID Typ Processnamn GPU Minne |
|       ID-ID-användning |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modell
Arkitektur qwen2
parametrar 32,8B
kontextlängd 131072
Inbäddningslängd 5120
Kvantisering Q4_K_M

  Parametrar
sluta "<|början av meningen|>"
sluta "<|slutet på meningen|>"
stop "<|User|>"
sluta "<|Assistent|>"

  Licens
MIT-licens
Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAMN-ID-STORLEK PROCESSOR TILLS
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Lilla avskum · Publicerad på 2025-02-08 08:34:18

Hur man löser problemet med Ollama-modellens pull
https://www.itsvse.com/thread-10939-1-1.html

Lilla avskum · Publicerad på 2025-02-13 09:25:04

Upplev DeepSeek R1 32b-modellen på Jetson AGX Orin (32G):Inloggningen med hyperlänken är synlig.
Jetson kör stora språkmodeller:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud distribuerar DeepSeek-R1 med HAI-handledning

Relaterade inlägg