Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 2394|Resposta: 10

【AI】(3) Tencent Cloud implanta DeepSeek-R1 com tutorial de HAI

[Copiar link]
Postado em 2025-2-5 21:14:04 | | | |
Hyper Application Inventor (HAI) é um produto de serviço de aplicação para GPU voltado para IA e computação científica, oferecendo poder de processamento plug-and-play e ambientes comuns para ajudar pequenas e médias empresas e desenvolvedores a implantarem rapidamente LLMs.

Endereço:O login do hiperlink está visível.

HAI vs servidores GPU

Reduzir muito o limite para uso de servidores em nuvem com GPU, otimizar a experiência do produto sob múltiplos ângulos e usá-lo de fábrica, como mostrado na figura abaixo:



Compre potência de computação HAI

Vá até a página de compra, selecione a imagem do ambiente básico "Ubuntu 20.04" e configure o ambiente:Ubuntu 20.04, Driver 525.105.17, Python 3.8, CUDA 12.0, cuDNN 8A imagem já instalou o driver para nós, e escolhemos pagar conforme avançamos, como mostrado na figura abaixo:



Memória de vídeo: 32GB+
Taxa de hash: 15+TFlops SP
CPU: 8~10 núcleos
RAM: 40GB

Após alguns minutos de espera, a instância é criada com sucesso e a Aceleração Acadêmica é ativada, como mostrado na figura a seguir:



Na primeira vez que você usa, precisa redefinir sua senha, e o nome de usuário de login é:Ubuntu。 Tente fazer login no servidor e verificar as informações do driver da GPU NVIDIA com o seguinte comando:


Como mostrado abaixo:


Instalar Ollama

Site Oficial de Ollama:O login do hiperlink está visível.

Faça login no servidor usando a ferramenta de massa e comece a instalar a ferramenta Ollama com o seguinte comando:


A instalação está concluída, e o resultado é o seguinte:
>>> Instalando ollama para /usr/local
>>> Baixando o pacote Linux amd64
######################################################################## 100.0%
>>> Criando usuário de Ollama...
>>> Adicionando usuário ollama ao grupo de renderização...
>>> Adicionando usuário de ollama ao grupo de vídeo...
>>> Adicionando usuário atual ao grupo ollama...
>>> Criando o serviço do sistema ollama...
>>> Possibilitando e iniciando o serviço ollama...
Criei o symlink /etc/systemd/system/default.target.wants/ollama.service → /etc/systemd/system/ollama.service.

Confira o comando de versão: ollama -v
Veja o modelo que está atualmente carregado na memória: ollama ps

Crie uma pasta de armazenamento personalizada com o seguinte comando:

Modifique o endereço padrão de escuta e o caminho de armazenamento do modelo (você não pode modificar a porta padrão, caso contrário o comando falhará) e use os seguintes comandos:


Implantar o modelo deepseek-r1

Execute o modelo deepseek-r1:8b com o seguinte comando:


Como mostrado abaixo:



Teste o diálogo conforme mostrado abaixo:



O firewall libera a porta TCP 11434 e chama a interface HTTP, como mostrado na figura a seguir:



{
  "modelos": [
    {
      "nome": "deepseek-r1:8b",
      "modelo": "deepseek-r1:8b",
      "Tamanho": 6930032640,
      "digest": "28f8fd6cdc677661426adab9338ce3c013d7e69a5bea9e704b364171a5d61a10",
      "detalhes": {
        "parent_model": "",
        "formato": "gguf",
        "família": "lhama",
        "famílias": [
          "lhama"
        ],
        "parameter_size": "8.0B",
        "quantization_level": "Q4_K_M"
      },
      "expires_at": "2025-02-05T21:14:50.715753614+08:00",
      "size_vram": 6930032640
    }
  ]
}

Referência:
O login do hiperlink está visível.
O login do hiperlink está visível.
O login do hiperlink está visível.




Anterior:[IA] (2) A diferença entre as versões DeepSeek-V3 e R1
Próximo:[IA] (4) Use o OpenWebUI para chamar o modelo DeepSeek-R1
 Senhorio| Postado em 05-02-2025 às 21:22:49 |
Se o modelo não receber solicitações ou entradas por um período de tempo, a Ollama encerra automaticamente o modelo no centro de nuvem para economizar recursos.
 Senhorio| Postado em 2025-2-6 09:03:57 |
Item de configuração da variável ambiental Ollama

VariávelValor padrãoDescrição + Efeito + Cenário
OLLAMA_HOST"[color=var(--fgColor-accent, var(--color-accent-fg))]O login do hiperlink está visível."Configura o host e o esquema para o servidor Ollama. Efeito: Determina a URL usada para se conectar ao servidor Ollama. Cenário: Útil ao implantar o Ollama em um ambiente distribuído ou quando você precisa expor o serviço em uma interface de rede específica.
OLLAMA_ORIGINS[localhost, 127.0.0.1, 0.0.0.0] + app://, file://, tauri://Configura origens permitidas para CORS. Efeito: Controle quais origens podem fazer requisições ao servidor Ollama. Cenário: Crítico ao integrar o Ollama com aplicações web para evitar acessos não autorizados de diferentes domínios.
OLLAMA_MODELS$HOME/.ollama/modelsDefine o caminho para o diretório de modelos. Efeito: Determina de onde os arquivos de modelo são armazenados e carregados. Cenário: Útil para gerenciar espaço em disco em diferentes drives ou configurar repositórios de modelos compartilhados em ambientes multiusuário.
OLLAMA_KEEP_ALIVE5 minutosDefine quanto tempo os modelos ficam carregados na memória. Efeito: Controla a duração dos modelos permanecem na memória após o uso. Cenário: Durações maiores melhoram os tempos de resposta para consultas frequentes, mas aumentam o uso de memória. Durações menores liberam recursos, mas podem aumentar os tempos de resposta iniciais.
OLLAMA_DEBUGfalsePermite informações adicionais de depuração. Efeito: Aumenta a verbosidade da saída de logs e depuração. Cenário: Inestimável para solucionar problemas ou entender o comportamento do sistema durante o desenvolvimento ou implantação.
OLLAMA_FLASH_ATTENTIONfalseAtiva o recurso experimental de atenção do flash. Efeito: Ativa uma otimização experimental para mecanismos de atenção. Cenário: Pode potencialmente melhorar o desempenho em hardware compatível, mas pode introduzir instabilidade.
OLLAMA_NOHISTORYfalseDesativa o histórico da linha de leitura. Efeito: Impede que o histórico de comandos seja salvo. Cenário: Útil em ambientes sensíveis à segurança onde o histórico de comandos não deve ser mantido.
OLLAMA_NOPRUNEfalseDesativa a poda dos blobs do modelo na inicialização. Efeito: Mantém todos os blobs de modelos, potencialmente aumentando o uso do disco. Cenário: Útil quando você precisa manter todas as versões dos modelos para compatibilidade ou para fins de reversão.
OLLAMA_SCHED_SPREADfalsePermite a organização de modelos para todas as GPUs. Efeito: Permite o uso de múltiplas GPUs para inferência de modelos. Cenário: Benéfico em ambientes de computação de alto desempenho com múltiplas GPUs para maximizar a utilização de hardware.
OLLAMA_INTEL_GPUfalsePermite a detecção experimental de GPU Intel. Efeito: Permite o uso de GPUs Intel para inferência de modelos. Cenário: Útil para organizações que utilizam hardware de GPU Intel para cargas de trabalho de IA.
OLLAMA_LLM_LIBRARY"" (auto-detectamento)Configura a biblioteca do LLM para uso. Efeito: Sobrepõe a detecção automática da biblioteca de LLM. Cenário: Útil quando você precisa forçar uma versão ou implementação específica da biblioteca por razões de compatibilidade ou desempenho.
OLLAMA_TMPDIRDiretório temporário padrão do sistemaDefine a localização dos arquivos temporários. Efeito: Determina onde arquivos temporários são armazenados. Cenário: Importante para gerenciar o desempenho de I/O ou quando o diretório temporário do sistema tem espaço limitado.
CUDA_VISIBLE_DEVICESTodos disponíveisDefine quais dispositivos NVIDIA são visíveis. Efeito: Controle quais GPUs NVIDIA podem ser usadas. Cenário: Fundamental para gerenciar a alocação de GPUs em ambientes multiusuário ou multiprocesso.
HIP_VISIBLE_DEVICESTodos disponíveisDefine quais dispositivos AMD estão visíveis. Efeito: Controle quais GPUs AMD podem ser usadas. Cenário: Semelhante ao CUDA_VISIBLE_DEVICES, mas para hardware AMD.
OLLAMA_RUNNERS_DIRDependente do sistemaDefine a localização dos corredores. Efeito: Determina onde os executáveis do runner estão localizados. Cenário: Importante para implantações personalizadas ou quando os runners precisam ser isolados da aplicação principal.
OLLAMA_NUM_PARALLEL0 (ilimitado)Define o número de requisições de modelos paralelos. Efeito: Controla a concorrência da inferência do modelo. Cenário: Crítico para gerenciar a carga do sistema e garantir a resposta em ambientes de alto tráfego.
OLLAMA_MAX_LOADED_MODELS0 (ilimitado)Define o número máximo de modelos carregados. Efeito: Limita o número de modelos que podem ser carregados simultaneamente. Cenário: Ajuda a gerenciar o uso de memória em ambientes com recursos limitados ou muitos modelos diferentes.
OLLAMA_MAX_QUEUE512Define o número máximo de solicitações em fila. Efeito: Limita o tamanho da fila de solicitação. Cenário: Previne sobrecarga do sistema durante picos de tráfego e garante o processamento oportuno das solicitações.
OLLAMA_MAX_VRAM0 (ilimitado)Define um override máximo de VRAM em bytes. Efeito: Limita a quantidade de VRAM que pode ser usada. Cenário: Útil em ambientes de GPU compartilhados para evitar que um único processo monopolize a memória da GPU.


Fonte:O login do hiperlink está visível.

$ ollama ajuda a servir
Comece ollama

Usage:
  Ollama Serve [Bandeiras]

Aliases:
  Saque, comece

Flags:
  -h, --ajuda ajuda para o saque

Variáveis do Ambiente:
      OLLAMA_DEBUG Mostrar informações adicionais de depuração (por exemplo, OLLAMA_DEBUG=1)
      OLLAMA_HOST Endereço IP do servidor ollama (padrão 127.0.0.1:11434)
      OLLAMA_KEEP_ALIVE A duração em que os modelos permanecem carregados na memória (padrão "5m")
      OLLAMA_MAX_LOADED_MODELS Número máximo de modelos carregados por GPU
      OLLAMA_MAX_QUEUE Número máximo de solicitações em fila
      OLLAMA_MODELS O caminho para o diretório de modelos
      OLLAMA_NUM_PARALLEL Número máximo de requisições paralelas
      OLLAMA_NOPRUNE Não podar os blobs do modelo na inicialização
      OLLAMA_ORIGINS Uma vírgula separava a lista de origens permitidas
      OLLAMA_SCHED_SPREAD Sempre agende o modelo em todas as GPUs
      OLLAMA_TMPDIR Local para arquivos temporários
      OLLAMA_FLASH_ATTENTION Ativada atenção em flash
      OLLAMA_LLM_LIBRARY Defina a biblioteca LLM para burlar a autodetecção
      OLLAMA_GPU_OVERHEAD Reserve uma porção da VRAM por GPU (bytes)
      OLLAMA_LOAD_TIMEOUT Quanto tempo permitir que as cargas do modelo travem antes de desistir (padrão "5m")


Referência:O login do hiperlink está visível.
 Senhorio| Publicado em 2025-2-6 09:19:49 |
Comando Ollama

Lista ollama: Exibe uma lista de modelos
Show Ollama: Exibe informações sobre o modelo
Ollama Pull: Modelo de Pull
ollama push: modelo de empurrar
Ollama CP: Copiar um modelo
ollama RM: Deletar um modelo
Ollama Run: Execute um modelo
 Senhorio| Publicado em 2025-2-6 09:33:17 |
Otimização de modelos, edição/etc/systemd/system/ollama.service.d/override.confConfiguração, adicione o seguinte:


A configuração completa é a seguinte:



 Senhorio| Postado em 2025-2-6 09:35:26 |
--prolixoO parâmetro é usado para exibir a velocidade de inferência (token / segundo). Por exemplo:

>>> Olá, quem é você?
<think>

</think>

Olá! Sou assistente de IA desenvolvido de forma independente pela DeepSeek na China, e fico feliz em te ajudar!

Duração total: 489,831897ms
Duração de carga: 24,116423ms
Contagem de avaliação do prompt: 10 token(s)
Duração da avaliação do prompt: 4ms
Taxa de avaliação por prompt: 2500,00 tokens/s
Contagem de avaliações: 36 token(s)
Duração da avaliação: 460ms
Taxa de avaliação: 78,26 tokens/s
>>> eu sou um pequeno, qual é o meu nome?
<think>
Então, meu nome é um pequeno? Deixe-me pensar bem. Lembro que, quando eu era criança, meus pais me chamavam de "Pequeno" porque minha família achava que eu tinha orelhas grandes, mas na verdade, era só isso
Não é o motivo real. Talvez seja porque, quando eu era criança, eu sempre colocava o dedo na boca como lixo, então me chamavam de "pequeno escória".

No entanto, o nome soa um pouco estranho hoje em dia, e não combina muito com o estilo de nomeação da sociedade atual. Devo considerar renomeá-lo com um nome que combine melhor comigo. Primeiro, preciso entender a mim mesmo
Seus traços de personalidade e interesses, para que você possa escolher um nome que seja significativo e único.

Gosto de ajudar os outros e sou bom em ouvir e me comunicar, então talvez escolha um nome com "sabedoria", "caloroso" ou "amigável". Ao mesmo tempo, também quero refletir minha personalidade, como
Se você gosta de livros, música ou esportes, pode incorporar esses elementos ao seu nome.

Além disso, preciso garantir que o novo nome não seja mal lembrado ou mal compreendido. Isso significa que o nome deve ser único e reconhecível, não muito complexo ou comum. Eu posso
Consulte os nomes de algumas figuras conhecidas para ver quais possuem tanto herança cultural quanto modernidade.

Além disso, preciso considerar se a pronúncia é suave, se há um significado positivo e como ela é expressa em diferentes contextos. Isso significa que, ao escolher um nome, não só soa bem, mas também
Deve haver significado e valor por trás disso.

Por fim, preciso me comunicar com minha família e amigos para garantir que eles estejam felizes com o novo nome e que ele possa fazer parte da minha vida. Afinal, o nome não é só
Identificador faz parte da autoexpressão.

Resumindo, Xiao Zhao não é meu nome verdadeiro, e tenho o direito de escolher um nome que combine melhor comigo. Leva tempo e reflexão, mas analisando cuidadosamente sua personalidade e interesses
Além do significado do nome, acredito que conseguirei encontrar o nome mais adequado para mim.
</think>

Com base no processo de pensamento acima, decidi me chamar de "Estrela da Sabedoria". O nome reflete tanto minha engenhosidade, quanto meu calor e esperança, tornando-o um encaixe perfeito para minha sexualidade pessoal
Características. Ao mesmo tempo, a "estrela" simboliza luz e possibilidades infinitas, inspirando-me a buscar constantemente progresso e crescimento.

**Nome Finalizado: Estrela da Sabedoria**

Esse nome não só combina com minha personalidade, mas também é cheio de energia positiva que me faz sentir muito orgulhoso e realizado.

duração total: 7,600299527s
Duração de carga: 24,37534ms
Contagem de avaliações do prompt: 59 token(s)
Duração da avaliação do prompt: 10ms
Taxa de avaliação por prompt: 5900,00 tokens/s
Contagem de avaliações: 557 token(s)
Duração da avaliação: 6,618s
Taxa de avaliação: 84,16 tokens/s

 Senhorio| Postado em 2025-2-6 10:22:02 |
Implantar modelos ollama com GPUs AMD
Ollama-for-AMD:O login do hiperlink está visível.

Referência:O login do hiperlink está visível.
 Senhorio| Publicado em 2025-2-6 13:26:17 |
Execute o modelo deepseek-r1:32b




root@VM-0-8-ubuntu:~# nvidia-smi
Qui 6 de fevereiro 13:25:04 de 2025
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17 Versão do Driver: 525.105.17 CUDA Versão: 12.0 |
|-------------------------------+----------------------+----------------------+
| Persistência do nome da GPU-M| Bus-Id Disp.A | Volátil Uncorr. ECC |
| Desempenho Temporário do Ventilador Pwr:Uso/Capacitão|         Uso de Memória | GPU-Util Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0 Tesla V100-SXM2...  Em | 00000000:00:08.0 Desligado |                  Fora |
| N/A 65C P0 205W / 300W |  21822MiB / 32768MiB |     89% de Inadimplência |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processos: |
|  GPU GI CI PID Tipo de Nome do processo GPU Memória |
|        Uso do ID ID |
|=============================================================================|
|    0 N/A N/A 91457 C ... 1_avx/ollama_llama_server 21820MiB |
+-----------------------------------------------------------------------------+
root@VM-0-8-ubuntu:~# Ollama Show Deepseek-R1:32B
  Modelo
    Arquitetura QWEN2
    parâmetros 32.8B
    Comprimento do contexto 131072
    Comprimento de embedding 5120
    Q4_K_M quantização

  Parâmetros
    parem "<|início da frase|>"
    pare com "<|fim da frase|>"
    parem "<|Usuário|>"
    parem com "<|Assistente|>"

  Licença
    Licença MIT
    Direitos autorais (c) 2023 DeepSeek

root@VM-0-8-ubuntu:~# ollama ps
NOME ID TAMANHO PROCESSADOR ATÉ
deepseek-r1:32b    38056bbcbb2d    23 GB    100% GPU     Forever


 Senhorio| Postado em 2025-2-8 08:34:18 |
Como resolver o problema de puxar o modelo Ollama
https://www.itsvse.com/thread-10939-1-1.html
 Senhorio| Postado em 2025-2-13 09:25:04 |
Experimente o modelo DeepSeek R1 32b no Jetson AGX Orin (32G):O login do hiperlink está visível.
Jetson executa grandes modelos de linguagem:https://www.jetson-ai-lab.com/models.html

Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com