Dit artikel is een spiegelartikel van machinevertaling, klik hier om naar het oorspronkelijke artikel te gaan.

Bekijken: 1437|Antwoord: 0

[AI] (10) LLM-inferentie GPU-geheugen VRAM-schatting

[Link kopiëren]
Geplaatst op 2025-3-10 14:46:38 | | | |
Vereisten: Bij het uitrollen van een groot taalmodel (DeepSeek, qwen2.5) varieert het VRAM-geheugen van de vereiste GPU afhankelijk van het aantal parameters, activatie, verwerkingsbatchgrootte en nauwkeurigheidsfactoren van het model.

VRAM Introductie

VRAM (Engels: Video RAM, oftewel Video Random Access Memory) is een type computergeheugen dat is gewijd aan het opslaan van grafische gegevens zoals pixels. DRAM (geheugen) dat wordt gebruikt als grafische kaart en grafische kaart is een dubbelpoorts geheugen met willekeurige toegang waarmee RAMDAC gelijktijdig met beeldverwerking kan worden benaderd. Het kan over het algemeen uit twee delen bestaan, waarvan het eerste het digitale elektronische deel is, dat wordt gebruikt om het commando van de microprocessor te accepteren en de ontvangen gegevens te formatteren. het andere is het beeldgeneratorgedeelte, dat wordt gebruikt om bovenstaande gegevens verder te vormen tot een videosignaal.

Handmatige berekening

De formule voor de schatting van VRAM-gebruik is als volgt:



Referentieadres:De hyperlink-login is zichtbaar.

VRAM-schatter

Deze tool kan het GPU-VRAM-gebruik van transformer-gebaseerde modellen schatten voor inferentie en training. Het kan invoer van verschillende parameters toestaan, zoals modelnaam, precisie, maximale sequentielengte, batchgrootte, aantal GPU's. Biedt een gedetailleerde uitsplitsing van parameters, activaties, uitgangen en VRAM-gebruik voor CUDA-cores.

Adres:De hyperlink-login is zichtbaar., zoals getoond in de onderstaande figuur:



Hugging Face Accelerate Model Memory Calculator

Deze tool berekent het geheugengebruik van het model dat wordt gebruikt voor inferentie en training. Omdat het een link naar Hugging Face is, kun je de modelnaam of URL invoeren, en de tool geeft een uitgebreide overzicht van het geheugengebruik, inclusief datatype, grootste tier, totale grootte en het trainingsgeheugengebruik met verschillende optimizers.

Adres:De hyperlink-login is zichtbaar.


Kan ik deze LLM draaien


Dit is een uitgebreidere Transformer-gebaseerde tool die het invoeren van verschillende parameters mogelijk maakt en een gedetailleerde uitsplitsing van het geheugengebruik geeft. Geeft inzicht in hoe geheugen wordt toegewezen en gebruikt tijdens inferentie en training.

Adres:De hyperlink-login is zichtbaar., zoals getoond in de onderstaande figuur:





Vorig:Dubbele Precisie (FP64), Enkel Precisie (P32, TF32), Halve Precisie (FP16, BF16)
Volgend:Node.js Lees alle bestanden onder de map (inclusief submappen)
Disclaimer:
Alle software, programmeermaterialen of artikelen die door Code Farmer Network worden gepubliceerd, zijn uitsluitend bedoeld voor leer- en onderzoeksdoeleinden; De bovenstaande inhoud mag niet worden gebruikt voor commerciële of illegale doeleinden, anders dragen gebruikers alle gevolgen. De informatie op deze site komt van het internet, en auteursrechtconflicten hebben niets met deze site te maken. Je moet bovenstaande inhoud volledig van je computer verwijderen binnen 24 uur na het downloaden. Als je het programma leuk vindt, steun dan de echte software, koop registratie en krijg betere echte diensten. Als er sprake is van een inbreuk, neem dan contact met ons op via e-mail.

Mail To:help@itsvse.com