|
|
Postado em 2025-3-10 14:46:38
|
|
|
|

Requisitos: Ao implantar um grande modelo de linguagem (DeepSeek, qwen2.5), a memória VRAM da GPU necessária varia dependendo do número de parâmetros, ativação, tamanho do lote de processamento e fatores de precisão do modelo.
Introdução à VRAM
VRAM (em inglês: Video RAM, ou seja, Video Random Access Memory) é um tipo de memória de computador dedicada a armazenar dados gráficos, como pixels. DRAM (memória) usada como placa de vídeo e placa de vídeo é uma memória de acesso aleatório de duas portas que permite o acesso ao RAMDAC simultaneamente ao processamento de imagem. Geralmente, pode incluir duas partes: a primeira é a parte eletrônica digital, que é usada para aceitar o comando do microprocessador e formatar os dados recebidos. a outra é a parte geradora de imagem, que é usada para formar ainda mais os dados acima em um sinal de vídeo.
Cálculo manual
A fórmula de estimativa do uso da VRAM é a seguinte:
Endereço de referência:O login do hiperlink está visível.
Estimador VRAM
Essa ferramenta pode estimar o uso de VRAM da GPU em modelos baseados em transformadores para inferência e treinamento. Ele pode permitir a entrada de vários parâmetros, como nome do modelo, precisão, comprimento máximo da sequência, tamanho do lote, número de GPUs. Fornece uma divisão detalhada dos parâmetros, ativações, saídas e uso de VRAM para núcleos CUDA.
Endereço:O login do hiperlink está visível., como mostrado na figura abaixo:
Calculadora de Memória do Modelo Face Accelerate de Abraços
Essa ferramenta calcula o uso de memória do modelo usado para inferência e treinamento. Como é um link para o Hugging Face, você pode inserir o nome do modelo ou URL, e a ferramenta fornecerá uma divisão abrangente do uso de memória, incluindo tipo de dados, maior nível, tamanho total e uso de memória de treinamento usando diferentes otimizadores.
Endereço:O login do hiperlink está visível.
Posso administrar este LLM
Esta é uma ferramenta mais abrangente baseada em Transformer, que permite a entrada de vários parâmetros e fornece uma divisão detalhada do uso de memória. Fornece insights sobre como a memória é alocada e utilizada durante inferência e treinamento.
Endereço:O login do hiperlink está visível., como mostrado na figura abaixo:
|
Anterior:Precisão Dupla (FP64), Precisão Simples (P32, TF32), Meia Precisão (FP16, BF16)Próximo:Node.js Leia todos os arquivos sob a pasta (incluindo subpastas)
|