[IA] (10) Estimativa de VRAM de memória de GPU de inferência de grande modelo em LLM

Pequeno · Publicado em 10/03/2025 14:46:38

Requisitos: Ao implantar um grande modelo de linguagem (DeepSeek, qwen2.5), a memória VRAM da GPU necessária varia dependendo do número de parâmetros, ativação, tamanho do lote de processamento e fatores de precisão do modelo.

Introdução à VRAM

VRAM (em inglês: Video RAM, ou seja, Video Random Access Memory) é um tipo de memória de computador dedicada a armazenar dados gráficos, como pixels. DRAM (memória) usada como placa de vídeo e placa de vídeo é uma memória de acesso aleatório de duas portas que permite o acesso ao RAMDAC simultaneamente ao processamento de imagem. Geralmente, pode incluir duas partes: a primeira é a parte eletrônica digital, que é usada para aceitar o comando do microprocessador e formatar os dados recebidos. a outra é a parte geradora de imagem, que é usada para formar ainda mais os dados acima em um sinal de vídeo.

Cálculo manual

A fórmula de estimativa do uso da VRAM é a seguinte:

Endereço de referência:O login do hiperlink está visível.

Estimador VRAM

Essa ferramenta pode estimar o uso de VRAM da GPU em modelos baseados em transformadores para inferência e treinamento. Ele pode permitir a entrada de vários parâmetros, como nome do modelo, precisão, comprimento máximo da sequência, tamanho do lote, número de GPUs. Fornece uma divisão detalhada dos parâmetros, ativações, saídas e uso de VRAM para núcleos CUDA.

Endereço:O login do hiperlink está visível., como mostrado na figura abaixo:

Calculadora de Memória do Modelo Face Accelerate de Abraços

Essa ferramenta calcula o uso de memória do modelo usado para inferência e treinamento. Como é um link para o Hugging Face, você pode inserir o nome do modelo ou URL, e a ferramenta fornecerá uma divisão abrangente do uso de memória, incluindo tipo de dados, maior nível, tamanho total e uso de memória de treinamento usando diferentes otimizadores.

Endereço:O login do hiperlink está visível.

Posso administrar este LLM

Esta é uma ferramenta mais abrangente baseada em Transformer, que permite a entrada de vários parâmetros e fornece uma divisão detalhada do uso de memória. Fornece insights sobre como a memória é alocada e utilizada durante inferência e treinamento.

Endereço:O login do hiperlink está visível., como mostrado na figura abaixo:

[IA] (10) Estimativa de VRAM de memória de GPU de inferência de grande modelo em LLM

Posts Relacionados

Seções visualizadas