Denna artikel är en spegelartikel om maskinöversättning, klicka här för att hoppa till originalartikeln.

Utsikt: 2394|Svar: 10

【AI】(3) Tencent Cloud distribuerar DeepSeek-R1 med HAI-handledning

[Kopiera länk]
Publicerad den 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) är en GPU-applikationstjänst för AI och vetenskaplig databehandling, som tillhandahåller plug-and-play-datorkraft och gemensamma miljöer för att hjälpa små och medelstora företag och utvecklare att snabbt implementera LLM:er.

Adress:Inloggningen med hyperlänken är synlig.

HAI vs GPU-servrar

Minska tröskeln för användning av GPU-molnservrar avsevärt, optimera produktupplevelsen från flera vinklar och använd det direkt, som visas i figuren nedan:



Köp HAI-datorkraft

Gå till köpsidan, välj den grundläggande miljöavbilden "Ubuntu 20.04" och konfigurera miljön:Ubuntu 20.04, drivrutin 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8Bilden har redan installerat drivrutinen åt oss, och vi väljer att betala efter behov, som visas i figuren nedan:



Videominne: 32GB+
Hashrate: 15+TFlops SP
CPU: 8~10 kärnor
RAM: 40GB

Efter att ha väntat några minuter skapas instansen framgångsrikt och Academic Acceleration aktiveras, som visas i följande figur:



Första gången du använder den måste du återställa ditt lösenord, och inloggningsanvändarnamnet är:ubuntu。 Prova att logga in på servern och kontrollera NVIDIA GPU-drivrutinsinformationen med följande kommando:


Som visas nedan:


Installera Ollama

Ollama officiella webbplats:Inloggningen med hyperlänken är synlig.

Logga in på servern med kittverktyget och börja installera Olama-verktyget med följande kommando:


Installationen är klar och resultatet är som följer:
>>> Installera ollama till /usr/local
>>> Nedladdning av Linux amd64-paket
######################################################################## 100.0%
>>> Skapar ollama-användare...
>>> Lägger till ollama-användare för renderingsgruppen...
>>> Lägger till ollama-användare i videogruppen...
>>> Lägger till nuvarande användare i ollama-gruppen...
>>> Skapar ollama systemd-tjänst...
>>> Aktiverar och startar ollama-tjänsten...
Skapade symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Kolla in versionskommandot: ollama -v
Se modellen som för närvarande laddas in i minnet: ollama ps

Skapa en egen modelllagringsmapp med följande kommando:

Ändra standard-lyssningsadressen och modelllagringsvägen (du kan inte ändra standardporten, annars misslyckas kommandot) och använd följande kommandon:


Implementera deepseek-r1-modellen

Kör deepseek-r1:8b-modellen med följande kommando:


Som visas nedan:



Testa dialogen enligt nedan:



Brandväggen släpper TCP-port 11434 och anropar HTTP-gränssnittet, som visas i följande figur:



{
  "Modeller": [
    {
      "Namn": "Deepseek-R1:8b",
      "modell": "deepseek-r1:8b",
      "storlek": 6930032640,
      "Digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "detaljer": {
        "parent_model": "",
        "format": "gguf",
        "familj": "lama",
        "Familjer": [
          "lama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Hänvisning:
Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.
Inloggningen med hyperlänken är synlig.




Föregående:[AI] (2) Skillnaden mellan DeepSeek-V3 och R1-versionerna
Nästa:[AI] (4) Använd Open WebUI för att anropa DeepSeek-R1-modellen
 Hyresvärd| Publicerad den 2025-2-5 21:22:49 |
Om modellen inte tar emot förfrågningar eller indata under en viss tid, avslutar Ollama automatiskt modellen i molncentret för att spara resurser.
 Hyresvärd| Publicerad den 2025-2-6 09:03:57 |
Ollama miljövariabelkonfigurationsobjekt

VariabelStandardvärdeBeskrivning + Effekt + Scenario
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]Inloggningen med hyperlänken är synlig."Konfigurerar värden och schemat för Olama-servern. Effekt: Bestämmer URL:en som används för att ansluta till Olama-servern. Scenario: Användbart vid distribution av Ollama i en distribuerad miljö eller när du behöver exponera tjänsten på ett specifikt nätverksgränssnitt.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Konfigureringar möjliggjorde ursprung för CORS. Effekt: Kontrollerar vilka ursprung som får göra förfrågningar till Olama-servern. Scenario: Avgörande vid integration av Ollama med webbapplikationer för att förhindra obehörig åtkomst från olika domäner.
OLLAMA_MODELS$HOME/.ollama/modellerSätter sökvägen till modellkatalogen. Effekt: Bestämmer varifrån modellfiler lagras och laddas. Scenario: Användbart för att hantera diskutrymme på olika enheter eller för att sätta upp delade modellarkiv i fleranvändarmiljöer.
OLLAMA_KEEP_ALIVE5 minuterSätter hur länge modeller förblir laddade i minnet. Effekt: Kontrollerar varaktighetsmodellerna förblir i minnet efter användning. Scenario: Längre varaktigheter förbättrar svarstider för frekventa förfrågningar men ökar minnesanvändningen. Kortare tider frigör resurser men kan öka de initiala svarstiderna.
OLLAMA_DEBUGfalseMöjliggör ytterligare felsökningsinformation. Effekt: Ökar utförsamheten i loggning och felsökning. Scenario: Ovärderligt för att felsöka problem eller förstå systemets beteende under utveckling eller driftsättning.
OLLAMA_FLASH_ATTENTIONfalseMöjliggör experimentell flash-uppmärksamhetsfunktion. Effekt: Aktiverar en experimentell optimering för uppmärksamhetsmekanismer. Scenario: Kan potentiellt förbättra prestandan på kompatibel hårdvara men kan skapa instabilitet.
OLLAMA_NOHISTORYfalseInaktiverar läslinjehistorik. Effekt: Förhindrar att kommandohistorik sparas. Scenario: Användbart i säkerhetskänsliga miljöer där kommandohistorik inte bör bevaras.
OLLAMA_NOPRUNEfalseInaktiverar beskärning av modellblobs vid uppstart. Effekt: Behåller alla modellblobs, vilket potentiellt ökar diskanvändningen. Scenario: Hjälpsamt när du behöver underhålla alla modellversioner för kompatibilitet eller återställning.
OLLAMA_SCHED_SPREADfalseMöjliggör schemaläggning av modeller över alla GPU:er. Effekt: Möjliggör användning av flera GPU:er för modellinferens. Scenario: Fördelaktigt i högpresterande datormiljöer med flera GPU:er för att maximera hårdvaruanvändningen.
OLLAMA_INTEL_GPUfalseMöjliggör experimentell Intel GPU-detektering. Effekt: Tillåter användning av Intel-GPU:er för modellinferens. Scenario: Användbart för organisationer som utnyttjar Intel GPU-hårdvara för AI-arbetsbelastningar.
OLLAMA_LLM_LIBRARY"" (auto-detekter)Ställer in LLM-biblioteket att använda. Effekt: Åsidosätter automatisk detektering av LLM-biblioteket. Scenario: Användbart när du behöver tvinga fram en specifik biblioteksversion eller implementation av kompatibilitets- eller prestandaskäl.
OLLAMA_TMPDIRSystemstandard temp-katalogStäller in platsen för temporära filer. Effekt: Bestämmer var temporära filer lagras. Scenario: Viktigt för att hantera I/O-prestanda eller när systemets tempkatalog har begränsat utrymme.
CUDA_VISIBLE_DEVICESAlla tillgängligaSätter vilka NVIDIA-enheter som är synliga. Effekt: Styr vilka NVIDIA-GPU:er som kan användas. Scenario: Kritiskt för att hantera GPU-allokering i multi-användar- eller multiprocessmiljöer.
HIP_VISIBLE_DEVICESAlla tillgängligaSätter vilka AMD-enheter som är synliga. Effekt: Styr vilka AMD-GPU:er som kan användas. Scenario: Liknande CUDA_VISIBLE_DEVICES men för AMD-hårdvara.
OLLAMA_RUNNERS_DIRSystemberoendeBestämmer platsen för löparna. Effekt: Bestämmer var löparens körbara filer finns. Scenario: Viktigt för anpassade distributioner eller när runners behöver isoleras från huvudapplikationen.
OLLAMA_NUM_PARALLEL0 (obegränsat)Sätter antalet parallella modellförfrågningar. Effekt: Kontrollerar samtidighet av modellinferens. Scenario: Kritiskt för att hantera systembelastningen och säkerställa respons i miljöer med hög trafik.
OLLAMA_MAX_LOADED_MODELS0 (obegränsat)Sätter det maximala antalet laddade modeller. Effekt: Begränsar antalet modeller som kan laddas samtidigt. Scenario: Hjälper till att hantera minnesanvändning i miljöer med begränsade resurser eller många olika modeller.
OLLAMA_MAX_QUEUE512Sätter det maximala antalet köade förfrågningar. Effekt: Begränsar storleken på förfrågningskön. Scenario: Förhindrar systemöverbelastning under trafiktoppar och säkerställer snabb hantering av förfrågningar.
OLLAMA_MAX_VRAM0 (obegränsat)Sätter en maximal VRAM-överskrivning i bytes. Effekt: Begränsning av hur mycket VRAM som kan användas. Scenario: Användbart i delade GPU-miljöer för att förhindra att en enskild process monopoliserar GPU-minnet.


Källa:Inloggningen med hyperlänken är synlig.

$ ollama hjälp till tjänst
Start ollama

Usage:
  Olama-serv [flaggor]

Aliases:
  Serve, börja

Flags:
  -H, --hjälp hjälp för tjänst

Miljövariabler:
      OLLAMA_DEBUG Visa ytterligare felsökningsinformation (t.ex. OLLAMA_DEBUG=1)
      OLLAMA_HOST IP-adress för ollama-servern (standard 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE Den tid modellerna förblir laddade i minnet (standard "5m")
      OLLAMA_MAX_LOADED_MODELS Maximalt antal laddade modeller per GPU
      OLLAMA_MAX_QUEUE Maximalt antal köade förfrågningar
      OLLAMA_MODELS Vägen till modellkatalogen
      OLLAMA_NUM_PARALLEL Maximalt antal parallella förfrågningar
      OLLAMA_NOPRUNE Beskär inte modellblobs vid uppstart
      OLLAMA_ORIGINS En komma-separerad lista över tillåtna ursprung
      OLLAMA_SCHED_SPREAD Schemalägg alltid modellen över alla GPU:er
      OLLAMA_TMPDIR Plats för temporära filer
      OLLAMA_FLASH_ATTENTION Aktiverade flash-uppmärksamhet
      OLLAMA_LLM_LIBRARY Ställ in LLM-biblioteket för att kringgå autodetektering
      OLLAMA_GPU_OVERHEAD Reservera en del VRAM per GPU (byte)
      OLLAMA_LOAD_TIMEOUT Hur länge ska modelllasterna stanna innan man ger upp (standard "5m")


Hänvisning:Inloggningen med hyperlänken är synlig.
 Hyresvärd| Publicerad den 2025-2-6 09:19:49 |
Ollama Command

ollama-lista: Visar en lista över modeller
Olama-show: Visar information om modellen
Ollama Pull: Pull-modell
ollama push: Push-modell
Ollama CP: kopiera en modell
ollama rm: Ta bort en modell
ollama run: Kör en modell
 Hyresvärd| Publicerad den 2025-2-6 09:33:17 |
Modelloptimering, redigering/etc/systemd/system/ollama.service.d/override.confkonfiguration, lägg till följande:


Den fullständiga konfigurationen är följande:



 Hyresvärd| Publicerad den 6 april 2025 09:35:26 |
--mångordigParametern används för att visa inferenshastigheten (token / sekund). Till exempel:

>>> Hej, vem är du?
<think>

</think>

Hej! Jag är en AI-assistent som självständigt utvecklats av DeepSeek i Kina, och jag är glad att kunna hjälpa dig!

Total varaktighet: 489,831897ms
Laddningstid: 24,116423 ms
Prompt utvärdering: 10 token(ar)
Promptutvärderingstid: 4 ms
Snabb utvärderingsfrekvens: 2500,00 tokens/s
Utvärderingsantal: 36 token(ar)
utvärderingstid: 460 ms
Utvärderingsfrekvens: 78,26 tokens/s
>>> jag är en liten skitstövel, vad heter jag?
<think>
Nå, är lilla avskum mitt namn? Låt mig tänka noga på det. Jag minns när jag var barn kallade mina föräldrar mig "Lilla Skurken" eftersom min familj trodde att jag hade stora öron, men i själva verket var det allt
Inte den verkliga anledningen. Kanske är det för att jag som barn alltid stoppade fingret i munnen som skräp, så jag kallades "lilla avskum".

Men namnet låter lite konstigt nu, och det passar inte riktigt in i dagens samhälles namnstil. Jag borde överväga att byta namn till ett namn som passar mig bättre. Först måste jag förstå mig själv
Dina personlighetsdrag och intressen, så att du kan välja ett namn som är både meningsfullt och unikt.

Jag gillar att hjälpa andra och är bra på att lyssna och kommunicera, så kanske välj ett namn med "visdom", "varm" eller "vänlig". Samtidigt vill jag också spegla min personlighet, såsom
Om du gillar böcker, musik eller sport kan du införliva dessa element i ditt namn.

Dessutom måste jag försäkra mig om att det nya namnet inte blir felihågkommet eller missförstått. Det betyder att namnet måste vara unikt och igenkännbart, inte för komplext eller för vanligt. Jag kan
Titta på namnen på några välkända personer för att se vilka som har både kulturellt arv och modernitet.

Dessutom behöver jag överväga om uttalet är mjukt, om det finns en positiv betydelse och hur det uttrycks i olika sammanhang. Det betyder att när man väljer namn låter man inte bara bra, utan också
Det måste finnas mening och värde bakom det.

Slutligen behöver jag kommunicera med min familj och mina vänner för att se till att de är nöjda med det nya namnet och att namnet kan bli en del av mitt liv. Namnet är ju inte bara
identifierare är en del av självuttrycket.

Kort sagt, Xiao Zhao är inte mitt riktiga namn, och jag har rätt att välja ett namn som passar mig bättre. Det tar tid och eftertanke, men genom att noggrant analysera din personlighet och dina intressen
Förutom namnets betydelse tror jag att jag kommer att kunna hitta det mest passande namnet för mig själv.
</think>

Baserat på ovanstående tankesätt bestämde jag mig för att kalla mig "Visdomsstjärnan". Namnet speglar både min uppfinningsrikedom, värme och hopp, vilket gör det till en perfekt match för min personliga sexualitet
Karakteristika. Samtidigt symboliserar "stjärnan" ljus och oändliga möjligheter, vilket inspirerar mig att ständigt sträva efter framsteg och tillväxt.

**Slutgiltigt namn: Visdomsstjärna**

Det här namnet passar inte bara min personlighet, utan är också fullt av positiv energi som får mig att känna mig mycket stolt och tillfredsställd.

Total varaktighet: 7.600299527s
Laddningstid: 24,37534 ms
Prompt utvärdering: 59 token(ar)
Promptutvärderingens längd: 10 ms
Snabb utvärderingsfrekvens: 5900,00 tokens/s
Utvärdering: 557 token(ar)
utvärderingstid: 6,618 sekunder
utvärderingsfrekvens: 84,16 tokens/s

 Hyresvärd| Publicerad den 2025-2-6 10:22:02 |
Distribuera ollama-modeller med AMD-grafikkort
Ollama-för-AMD:Inloggningen med hyperlänken är synlig.

Hänvisning:Inloggningen med hyperlänken är synlig.
 Hyresvärd| Publicerad den 6 april 2025 13:26:17 |
Kör deepseek-r1:32b-modellen




root@VM-0-8-ubuntu:~# nvidia-smi
Tor 6 feb 13:25:04 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Drivrutinsversion: 525.105.17 CUDA-version: 12.0 |
|-------------------------------+----------------------+----------------------+
| GPU-namn persistens-M| Bus-ID Disp.A | Volatil Uncorr. ECC |
| Fläkttemperaturprestanda Pwr:Användning/kondensator|         Minnesanvändning | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  På | 000000000:00:08.0 Av |                  Off |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% Default |
|                               |                      |                  Ej till svaret |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processer: |
|  GPU GI CI PID Typ Processnamn GPU Minne |
|        ID-ID-användning |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# ollama show deepseek-r1:32b
  Modell
    Arkitektur qwen2
    parametrar 32,8B
    kontextlängd 131072
    Inbäddningslängd 5120
    Kvantisering Q4_K_M

  Parametrar
    sluta "<|början av meningen|>"
    sluta "<|slutet på meningen|>"
    stop "<|User|>"
    sluta "<|Assistent|>"

  Licens
    MIT-licens
    Copyright (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NAMN-ID-STORLEK PROCESSOR TILLS
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Hyresvärd| Publicerad den 2025-2-8 08:34:18 |
Hur man löser problemet med Ollama-modellens pull
https://www.itsvse.com/thread-10939-1-1.html
 Hyresvärd| Publicerad den 2025-2-13 09:25:04 |
Upplev DeepSeek R1 32b-modellen på Jetson AGX Orin (32G):Inloggningen med hyperlänken är synlig.
Jetson kör stora språkmodeller:https://www.jetson-ai-lab.com/models.html

Friskrivning:
All programvara, programmeringsmaterial eller artiklar som publiceras av Code Farmer Network är endast för lärande- och forskningsändamål; Ovanstående innehåll får inte användas för kommersiella eller olagliga ändamål, annars kommer användarna att bära alla konsekvenser. Informationen på denna sida kommer från internet, och upphovsrättstvister har inget med denna sida att göra. Du måste helt radera ovanstående innehåll från din dator inom 24 timmar efter nedladdning. Om du gillar programmet, vänligen stöd äkta programvara, köp registrering och få bättre äkta tjänster. Om det finns något intrång, vänligen kontakta oss via e-post.

Mail To:help@itsvse.com