|
|
Zverejnené 10.3.2025 o 14:46:38
|
|
|
|

Požiadavky: Pri nasadení veľkého jazykového modelu (DeepSeek, qwen2.5) sa pamäť VRAM požadovanej GPU mení v závislosti od počtu parametrov, aktivácie, veľkosti dávkovej spracovania a presnosti modelu.
Úvod do VRAM
VRAM (anglicky: Video RAM, t. j. Video Random Access Memory) je typ počítačovej pamäte určený na ukladanie grafických dát, ako sú pixely. DRAM (pamäť), používaná ako grafická karta a grafická karta, je dvojportová pamäť s náhodným prístupom, ktorá umožňuje súčasne pristupovať k RAMDAC so spracovaním obrazu. Zvyčajne môže obsahovať dve časti, prvou je digitálna elektronická časť, ktorá slúži na prijatie príkazu mikroprocesora a formátovanie prijatých dát. druhou je časť generátora obrazu, ktorá sa používa na ďalšie formovanie vyššie uvedených dát do video signálu.
Manuálny výpočet
Vzorec na odhad využitia VRAM je nasledovný:
Referenčná adresa:Prihlásenie na hypertextový odkaz je viditeľné.
VRAM Estimator
Tento nástroj dokáže odhadnúť využitie GPU VRAM v transformátorových modeloch na inferenciu a trénovanie. Umožňuje zadávanie rôznych parametrov, ako je názov modelu, presnosť, maximálna dĺžka sekvencie, veľkosť dávky, počet GPU. Poskytuje podrobný rozpis parametrov, aktivácií, výstupov a využitia VRAM pre CUDA jadrá.
Adresa:Prihlásenie na hypertextový odkaz je viditeľné., ako je znázornené na obrázku nižšie:
Kalkulačka pamäte modelu Hugging Face Accelerate
Tento nástroj vypočítava využitie pamäte modelu používaného na inferenciu a trénovanie. Keďže ide o odkaz na Hugging Face, môžete zadať názov modelu alebo URL a nástroj poskytne komplexný prehľad využitia pamäte, vrátane typu dát, najväčšej úrovne, celkovej veľkosti a trénovacieho využitia pamäte pomocou rôznych optimalizátorov.
Adresa:Prihlásenie na hypertextový odkaz je viditeľné.
Môžem spustiť tento LLM?
Ide o komplexnejší nástroj založený na Transformeroch, ktorý umožňuje vstup rôznych parametrov a poskytuje podrobný prehľad využitia pamäte. Poskytuje pohľad na to, ako sa pamäť prideľuje a využíva počas inferencie a tréningu.
Adresa:Prihlásenie na hypertextový odkaz je viditeľné., ako je znázornené na obrázku nižšie:
|
Predchádzajúci:Dvojitá presnosť (FP64), Jednoduchá presnosť (P32, TF32), Polovičná presnosť (FP16, BF16)Budúci:Node.js Prečítaj všetky súbory pod priečinkom (vrátane podpriečinkov)
|