【AI】(3) Tencent Cloud implanta DeepSeek-R1 com tutorial de HAI

Pequeno · Publicado em 05/02/2025 21:14:04

Hyper Application Inventor (HAI) é um produto de serviço de aplicação para GPU voltado para IA e computação científica, oferecendo poder de processamento plug-and-play e ambientes comuns para ajudar pequenas e médias empresas e desenvolvedores a implantarem rapidamente LLMs.

Endereço:O login do hiperlink está visível.

HAI vs servidores GPU

Reduzir muito o limite para uso de servidores em nuvem com GPU, otimizar a experiência do produto sob múltiplos ângulos e usá-lo de fábrica, como mostrado na figura abaixo:

Compre potência de computação HAI

Vá até a página de compra, selecione a imagem do ambiente básico "Ubuntu 20.04" e configure o ambiente:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8A imagem já instalou o driver para nós, e escolhemos pagar conforme avançamos, como mostrado na figura abaixo:

Memória de vídeo: 32GB+
Taxa de hash: 15+TFlops SP
CPU: 8~10 núcleos
RAM: 40GB

Após alguns minutos de espera, a instância é criada com sucesso e a Aceleração Acadêmica é ativada, como mostrado na figura a seguir:

Na primeira vez que você usa, precisa redefinir sua senha, e o nome de usuário de login é:Ubuntu。 Tente fazer login no servidor e verificar as informações do driver da GPU NVIDIA com o seguinte comando:

O login está visível.

Como mostrado abaixo:

Instalar Ollama

Site Oficial de Ollama:O login do hiperlink está visível.

Faça login no servidor usando a ferramenta de massa e comece a instalar a ferramenta Ollama com o seguinte comando:

O login está visível.

A instalação está concluída, e o resultado é o seguinte:

>>> Instalando ollama para /usr/local
>>> Baixando o pacote Linux amd64
######################################################################## 100.0%
>>> Criando usuário de Ollama...
>>> Adicionando usuário ollama ao grupo de renderização...
>>> Adicionando usuário de ollama ao grupo de vídeo...
>>> Adicionando usuário atual ao grupo ollama...
>>> Criando o serviço do sistema ollama...
>>> Possibilitando e iniciando o serviço ollama...
Criei o symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Confira o comando de versão: ollama -v
Veja o modelo que está atualmente carregado na memória: ollama ps

Crie uma pasta de armazenamento personalizada com o seguinte comando:

O login está visível.

Modifique o endereço padrão de escuta e o caminho de armazenamento do modelo (você não pode modificar a porta padrão, caso contrário o comando falhará) e use os seguintes comandos:

O login está visível.

Implantar o modelo deepseek-r1

Execute o modelo deepseek-r1:8b com o seguinte comando:

O login está visível.

Como mostrado abaixo:

Teste o diálogo conforme mostrado abaixo:

O firewall libera a porta TCP 11434 e chama a interface HTTP, como mostrado na figura a seguir:

{
  "modelos": [
{
   "nome": "deepseek-r1:8b",
   "modelo": "deepseek-r1:8b",
   "Tamanho": 6930032640,
   "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
   "detalhes": {
      "parent_model": "",
      "formato": "gguf",
      "família": "lhama",
      "famílias": [
      "lhama"
      ],
      "parameter_size": "8.0B",
      "quantization_level": "Q4_K_M"
   },
   "expires_at": "2025-02-05T21:14:50.715753614+08:00",
   "size_vram": 6930032640
}
  ]
}

Referência:
O login do hiperlink está visível.
O login do hiperlink está visível.
O login do hiperlink está visível.

Pequeno · Publicado em 05/02/2025 21:22:49

Se o modelo não receber solicitações ou entradas por um período de tempo, a Ollama encerra automaticamente o modelo no centro de nuvem para economizar recursos.

Pequeno · Publicado em 06/02/2025 09:03:57

Item de configuração da variável ambiental Ollama

Variável	Valor padrão	Descrição + Efeito + Cenário
OLLAMA_HOST	"[color=var(--fgColor-accent, var(--color-accent-fg))]O login do hiperlink está visível."	Configura o host e o esquema para o servidor Ollama. Efeito: Determina a URL usada para se conectar ao servidor Ollama. Cenário: Útil ao implantar o Ollama em um ambiente distribuído ou quando você precisa expor o serviço em uma interface de rede específica.
OLLAMA_ORIGINS	[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://	Configura origens permitidas para CORS. Efeito: Controle quais origens podem fazer requisições ao servidor Ollama. Cenário: Crítico ao integrar o Ollama com aplicações web para evitar acessos não autorizados de diferentes domínios.
OLLAMA_MODELS	$HOME/.ollama/models	Define o caminho para o diretório de modelos. Efeito: Determina de onde os arquivos de modelo são armazenados e carregados. Cenário: Útil para gerenciar espaço em disco em diferentes drives ou configurar repositórios de modelos compartilhados em ambientes multiusuário.
OLLAMA_KEEP_ALIVE	5 minutos	Define quanto tempo os modelos ficam carregados na memória. Efeito: Controla a duração dos modelos permanecem na memória após o uso. Cenário: Durações maiores melhoram os tempos de resposta para consultas frequentes, mas aumentam o uso de memória. Durações menores liberam recursos, mas podem aumentar os tempos de resposta iniciais.
OLLAMA_DEBUG	false	Permite informações adicionais de depuração. Efeito: Aumenta a verbosidade da saída de logs e depuração. Cenário: Inestimável para solucionar problemas ou entender o comportamento do sistema durante o desenvolvimento ou implantação.
OLLAMA_FLASH_ATTENTION	false	Ativa o recurso experimental de atenção do flash. Efeito: Ativa uma otimização experimental para mecanismos de atenção. Cenário: Pode potencialmente melhorar o desempenho em hardware compatível, mas pode introduzir instabilidade.
OLLAMA_NOHISTORY	false	Desativa o histórico da linha de leitura. Efeito: Impede que o histórico de comandos seja salvo. Cenário: Útil em ambientes sensíveis à segurança onde o histórico de comandos não deve ser mantido.
OLLAMA_NOPRUNE	false	Desativa a poda dos blobs do modelo na inicialização. Efeito: Mantém todos os blobs de modelos, potencialmente aumentando o uso do disco. Cenário: Útil quando você precisa manter todas as versões dos modelos para compatibilidade ou para fins de reversão.
OLLAMA_SCHED_SPREAD	false	Permite a organização de modelos para todas as GPUs. Efeito: Permite o uso de múltiplas GPUs para inferência de modelos. Cenário: Benéfico em ambientes de computação de alto desempenho com múltiplas GPUs para maximizar a utilização de hardware.
OLLAMA_INTEL_GPU	false	Permite a detecção experimental de GPU Intel. Efeito: Permite o uso de GPUs Intel para inferência de modelos. Cenário: Útil para organizações que utilizam hardware de GPU Intel para cargas de trabalho de IA.
OLLAMA_LLM_LIBRARY	"" (auto-detectamento)	Configura a biblioteca do LLM para uso. Efeito: Sobrepõe a detecção automática da biblioteca de LLM. Cenário: Útil quando você precisa forçar uma versão ou implementação específica da biblioteca por razões de compatibilidade ou desempenho.
OLLAMA_TMPDIR	Diretório temporário padrão do sistema	Define a localização dos arquivos temporários. Efeito: Determina onde arquivos temporários são armazenados. Cenário: Importante para gerenciar o desempenho de I/O ou quando o diretório temporário do sistema tem espaço limitado.
CUDA_VISIBLE_DEVICES	Todos disponíveis	Define quais dispositivos NVIDIA são visíveis. Efeito: Controle quais GPUs NVIDIA podem ser usadas. Cenário: Fundamental para gerenciar a alocação de GPUs em ambientes multiusuário ou multiprocesso.
HIP_VISIBLE_DEVICES	Todos disponíveis	Define quais dispositivos AMD estão visíveis. Efeito: Controle quais GPUs AMD podem ser usadas. Cenário: Semelhante ao CUDA_VISIBLE_DEVICES, mas para hardware AMD.
OLLAMA_RUNNERS_DIR	Dependente do sistema	Define a localização dos corredores. Efeito: Determina onde os executáveis do runner estão localizados. Cenário: Importante para implantações personalizadas ou quando os runners precisam ser isolados da aplicação principal.
OLLAMA_NUM_PARALLEL	0 (ilimitado)	Define o número de requisições de modelos paralelos. Efeito: Controla a concorrência da inferência do modelo. Cenário: Crítico para gerenciar a carga do sistema e garantir a resposta em ambientes de alto tráfego.
OLLAMA_MAX_LOADED_MODELS	0 (ilimitado)	Define o número máximo de modelos carregados. Efeito: Limita o número de modelos que podem ser carregados simultaneamente. Cenário: Ajuda a gerenciar o uso de memória em ambientes com recursos limitados ou muitos modelos diferentes.
OLLAMA_MAX_QUEUE	512	Define o número máximo de solicitações em fila. Efeito: Limita o tamanho da fila de solicitação. Cenário: Previne sobrecarga do sistema durante picos de tráfego e garante o processamento oportuno das solicitações.
OLLAMA_MAX_VRAM	0 (ilimitado)	Define um override máximo de VRAM em bytes. Efeito: Limita a quantidade de VRAM que pode ser usada. Cenário: Útil em ambientes de GPU compartilhados para evitar que um único processo monopolize a memória da GPU.

Fonte:O login do hiperlink está visível.

$ ollama ajuda a servir
Comece ollama

Usage:
  Ollama Serve [Bandeiras]

Aliases:
  Saque, comece

Flags:
  -h, --ajuda ajuda para o saque

Variáveis do Ambiente:
   OLLAMA_DEBUG Mostrar informações adicionais de depuração (por exemplo, OLLAMA_DEBUG=1)
   OLLAMA_HOST Endereço IP do servidor ollama (padrão 127.0.0.1:11434)
   OLLAMA_KEEP_ALIVE A duração em que os modelos permanecem carregados na memória (padrão "5m")
   OLLAMA_MAX_LOADED_MODELS Número máximo de modelos carregados por GPU
   OLLAMA_MAX_QUEUE Número máximo de solicitações em fila
   OLLAMA_MODELS O caminho para o diretório de modelos
   OLLAMA_NUM_PARALLEL Número máximo de requisições paralelas
   OLLAMA_NOPRUNE Não podar os blobs do modelo na inicialização
   OLLAMA_ORIGINS Uma vírgula separava a lista de origens permitidas
   OLLAMA_SCHED_SPREAD Sempre agende o modelo em todas as GPUs
   OLLAMA_TMPDIR Local para arquivos temporários
   OLLAMA_FLASH_ATTENTION Ativada atenção em flash
   OLLAMA_LLM_LIBRARY Defina a biblioteca LLM para burlar a autodetecção
   OLLAMA_GPU_OVERHEAD Reserve uma porção da VRAM por GPU (bytes)
   OLLAMA_LOAD_TIMEOUT Quanto tempo permitir que as cargas do modelo travem antes de desistir (padrão "5m")

Referência:O login do hiperlink está visível.

Pequeno · Publicado em 06/02/2025 09:19:49

Comando Ollama

Lista ollama: Exibe uma lista de modelos
Show Ollama: Exibe informações sobre o modelo
Ollama Pull: Modelo de Pull
ollama push: modelo de empurrar
Ollama CP: Copiar um modelo
ollama RM: Deletar um modelo
Ollama Run: Execute um modelo

Pequeno · Publicado em 06/02/2025 09:33:17

Otimização de modelos, edição/etc/systemd/system/ollama.service.d/override.confConfiguração, adicione o seguinte:

O login está visível.

A configuração completa é a seguinte:

O login está visível.

Pequeno · Publicado em 06/02/2025 09:35:26

--prolixoO parâmetro é usado para exibir a velocidade de inferência (token / segundo). Por exemplo:

O login está visível.

>>> Olá, quem é você?
<think>

</think>

Olá! Sou assistente de IA desenvolvido de forma independente pela DeepSeek na China, e fico feliz em te ajudar!

Duração total: 489,831897ms
Duração de carga: 24,116423ms
Contagem de avaliação do prompt: 10 token(s)
Duração da avaliação do prompt: 4ms
Taxa de avaliação por prompt: 2500,00 tokens/s
Contagem de avaliações: 36 token(s)
Duração da avaliação: 460ms
Taxa de avaliação: 78,26 tokens/s
>>> eu sou um pequeno, qual é o meu nome?
<think>
Então, meu nome é um pequeno? Deixe-me pensar bem. Lembro que, quando eu era criança, meus pais me chamavam de "Pequeno" porque minha família achava que eu tinha orelhas grandes, mas na verdade, era só isso
Não é o motivo real. Talvez seja porque, quando eu era criança, eu sempre colocava o dedo na boca como lixo, então me chamavam de "pequeno escória".

No entanto, o nome soa um pouco estranho hoje em dia, e não combina muito com o estilo de nomeação da sociedade atual. Devo considerar renomeá-lo com um nome que combine melhor comigo. Primeiro, preciso entender a mim mesmo
Seus traços de personalidade e interesses, para que você possa escolher um nome que seja significativo e único.

Gosto de ajudar os outros e sou bom em ouvir e me comunicar, então talvez escolha um nome com "sabedoria", "caloroso" ou "amigável". Ao mesmo tempo, também quero refletir minha personalidade, como
Se você gosta de livros, música ou esportes, pode incorporar esses elementos ao seu nome.

Além disso, preciso garantir que o novo nome não seja mal lembrado ou mal compreendido. Isso significa que o nome deve ser único e reconhecível, não muito complexo ou comum. Eu posso
Consulte os nomes de algumas figuras conhecidas para ver quais possuem tanto herança cultural quanto modernidade.

Além disso, preciso considerar se a pronúncia é suave, se há um significado positivo e como ela é expressa em diferentes contextos. Isso significa que, ao escolher um nome, não só soa bem, mas também
Deve haver significado e valor por trás disso.

Por fim, preciso me comunicar com minha família e amigos para garantir que eles estejam felizes com o novo nome e que ele possa fazer parte da minha vida. Afinal, o nome não é só
Identificador faz parte da autoexpressão.

Resumindo, Xiao Zhao não é meu nome verdadeiro, e tenho o direito de escolher um nome que combine melhor comigo. Leva tempo e reflexão, mas analisando cuidadosamente sua personalidade e interesses
Além do significado do nome, acredito que conseguirei encontrar o nome mais adequado para mim.
</think>

Com base no processo de pensamento acima, decidi me chamar de "Estrela da Sabedoria". O nome reflete tanto minha engenhosidade, quanto meu calor e esperança, tornando-o um encaixe perfeito para minha sexualidade pessoal
Características. Ao mesmo tempo, a "estrela" simboliza luz e possibilidades infinitas, inspirando-me a buscar constantemente progresso e crescimento.

**Nome Finalizado: Estrela da Sabedoria**

Esse nome não só combina com minha personalidade, mas também é cheio de energia positiva que me faz sentir muito orgulhoso e realizado.

duração total: 7,600299527s
Duração de carga: 24,37534ms
Contagem de avaliações do prompt: 59 token(s)
Duração da avaliação do prompt: 10ms
Taxa de avaliação por prompt: 5900,00 tokens/s
Contagem de avaliações: 557 token(s)
Duração da avaliação: 6,618s
Taxa de avaliação: 84,16 tokens/s

Pequeno · Publicado em 06/02/2025 10:22:02

Implantar modelos ollama com GPUs AMD
Ollama-for-AMD:O login do hiperlink está visível.

Referência:O login do hiperlink está visível.

Pequeno · Publicado em 06/02/2025 13:26:17

Execute o modelo deepseek-r1:32b

root@VM-0-8-ubuntu:~# nvidia-smi
Qui 6 de fevereiro 13:25:04 de 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versão do Driver: 525.105.17 CUDA Versão: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistência do nome da GPU-M| Bus-Id Disp.A | Volátil Uncorr. ECC |
| Desempenho Temporário do Ventilador Pwr:Uso/Capacitão|       Uso de Memória | GPU-Util Compute M. |
|                            |                   |             MIG M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2...  Em | 00000000:00:08.0 Desligado |                Fora |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |    89% de Inadimplência |
|                            |                   |                N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processos: |
|  GPU GI CI PID Tipo de Nome do processo GPU Memória |
|       Uso do ID ID |
|=============================================================================|
| 0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# Ollama Show Deepseek-R1:32B
  Modelo
Arquitetura QWEN2
parâmetros 32.8B
Comprimento do contexto 131072
Comprimento de embedding 5120
Q4_K_M quantização

  Parâmetros
parem "<|início da frase|>"
pare com "<|fim da frase|>"
parem "<|Usuário|>"
parem com "<|Assistente|>"

  Licença
Licença MIT
Direitos autorais (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NOME ID TAMANHO PROCESSADOR ATÉ
deepseek-r1:32b 38056bbcbb2d 23 GB 100% GPU    Forever

Pequeno · Publicado em 08/02/2025 08:34:18

Como resolver o problema de puxar o modelo Ollama
https://www.itsvse.com/thread-10939-1-1.html

Pequeno · Publicado em 13/02/2025 09:25:04

Experimente o modelo DeepSeek R1 32b no Jetson AGX Orin (32G):O login do hiperlink está visível.
Jetson executa grandes modelos de linguagem:https://www.jetson-ai-lab.com/models.html

【AI】(3) Tencent Cloud implanta DeepSeek-R1 com tutorial de HAI

Posts Relacionados