|
|
Geplaatst op 2025-3-10 14:46:38
|
|
|
|

Vereisten: Bij het uitrollen van een groot taalmodel (DeepSeek, qwen2.5) varieert het VRAM-geheugen van de vereiste GPU afhankelijk van het aantal parameters, activatie, verwerkingsbatchgrootte en nauwkeurigheidsfactoren van het model.
VRAM Introductie
VRAM (Engels: Video RAM, oftewel Video Random Access Memory) is een type computergeheugen dat is gewijd aan het opslaan van grafische gegevens zoals pixels. DRAM (geheugen) dat wordt gebruikt als grafische kaart en grafische kaart is een dubbelpoorts geheugen met willekeurige toegang waarmee RAMDAC gelijktijdig met beeldverwerking kan worden benaderd. Het kan over het algemeen uit twee delen bestaan, waarvan het eerste het digitale elektronische deel is, dat wordt gebruikt om het commando van de microprocessor te accepteren en de ontvangen gegevens te formatteren. het andere is het beeldgeneratorgedeelte, dat wordt gebruikt om bovenstaande gegevens verder te vormen tot een videosignaal.
Handmatige berekening
De formule voor de schatting van VRAM-gebruik is als volgt:
Referentieadres:De hyperlink-login is zichtbaar.
VRAM-schatter
Deze tool kan het GPU-VRAM-gebruik van transformer-gebaseerde modellen schatten voor inferentie en training. Het kan invoer van verschillende parameters toestaan, zoals modelnaam, precisie, maximale sequentielengte, batchgrootte, aantal GPU's. Biedt een gedetailleerde uitsplitsing van parameters, activaties, uitgangen en VRAM-gebruik voor CUDA-cores.
Adres:De hyperlink-login is zichtbaar., zoals getoond in de onderstaande figuur:
Hugging Face Accelerate Model Memory Calculator
Deze tool berekent het geheugengebruik van het model dat wordt gebruikt voor inferentie en training. Omdat het een link naar Hugging Face is, kun je de modelnaam of URL invoeren, en de tool geeft een uitgebreide overzicht van het geheugengebruik, inclusief datatype, grootste tier, totale grootte en het trainingsgeheugengebruik met verschillende optimizers.
Adres:De hyperlink-login is zichtbaar.
Kan ik deze LLM draaien
Dit is een uitgebreidere Transformer-gebaseerde tool die het invoeren van verschillende parameters mogelijk maakt en een gedetailleerde uitsplitsing van het geheugengebruik geeft. Geeft inzicht in hoe geheugen wordt toegewezen en gebruikt tijdens inferentie en training.
Adres:De hyperlink-login is zichtbaar., zoals getoond in de onderstaande figuur:
|
Vorig:Dubbele Precisie (FP64), Enkel Precisie (P32, TF32), Halve Precisie (FP16, BF16)Volgend:Node.js Lees alle bestanden onder de map (inclusief submappen)
|