Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 1437|Répondre: 0

[AI] (10) Estimation de la VRAM mémoire GPU par inférence grand modèle LLM

[Copié le lien]
Publié le 10-03-2025 à 14:46:38 | | | |
Exigences : Lors du déploiement d’un grand modèle de langage (DeepSeek, qwen2.5), la mémoire VRAM du GPU requis varie en fonction du nombre de paramètres, de l’activation, de la taille du lot de traitement et des facteurs de précision du modèle.

VRAM Introduction

La VRAM (en anglais : Video RAM, c’est-à-dire Video Random Access Memory) est un type de mémoire informatique dédiée au stockage de données graphiques telles que des pixels. La DRAM (mémoire) utilisée comme carte graphique et carte graphique est une mémoire à accès aléatoire à double port qui permet d’accéder simultanément au RAMDAC avec le traitement d’image. Il peut généralement inclure deux parties : la première est la partie électronique numérique, utilisée pour recevoir les commandes du microprocesseur et formater les données reçues. l’autre est la partie génératrice d’images, utilisée pour transformer davantage les données ci-dessus en un signal vidéo.

Calcul manuel

La formule d’estimation de l’utilisation de la VRAM est la suivante :



Adresse de référence :La connexion hyperlientérée est visible.

Estimateur VRAM

Cet outil peut estimer l’utilisation de la VRAM GPU des modèles basés sur transformateurs pour l’inférence et l’entraînement. Il permet d’entrer divers paramètres tels que le nom du modèle, la précision, la longueur maximale de la séquence, la taille du lot, le nombre de GPU. Fournit une ventilation détaillée des paramètres, activations, sorties et utilisation de la VRAM pour les cœurs CUDA.

Adresse:La connexion hyperlientérée est visible., comme montré dans la figure ci-dessous :



Calculatrice de mémoire du modèle Face Accelerate Hugging

Cet outil calcule l’utilisation de la mémoire du modèle utilisé pour l’inférence et l’entraînement. Parce qu’il s’agit d’un lien vers Hugging Face, vous pouvez entrer le nom du modèle ou l’URL, et l’outil fournira une ventilation complète de l’utilisation de la mémoire, incluant le type de données, le plus grand niveau, la taille totale et l’utilisation de la mémoire d’entraînement à l’aide de différents optimiseurs.

Adresse:La connexion hyperlientérée est visible.


Puis-je lancer ce LLM


Il s’agit d’un outil plus complet basé sur Transformer qui permet l’entrée de divers paramètres et fournit une ventilation détaillée de l’utilisation de la mémoire. Fournit un aperçu de la manière dont la mémoire est allouée et utilisée lors de l’inférence et de l’entraînement.

Adresse:La connexion hyperlientérée est visible., comme montré dans la figure ci-dessous :





Précédent:Double précision (FP64), simple précision (P32, TF32), demi-précision (FP16, BF16)
Prochain:Node.js Lire tous les fichiers du dossier (y compris les sous-dossiers)
Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com