|
|
Pubblicato il 10-03-2025 14:46:38
|
|
|
|

Requisiti: Quando si implementa un grande modello linguistico (DeepSeek, qwen2.5), la memoria VRAM della GPU richiesta varia a seconda del numero di parametri, dell'attivazione, della dimensione del lotto di elaborazione e dei fattori di accuratezza del modello.
Introduzione alla VRAM
La VRAM (in inglese: Video RAM, cioè Video Random Access Memory) è un tipo di memoria per computer dedicata all'archiviazione dei dati grafici come i pixel. La DRAM (memoria) utilizzata come scheda grafica e scheda grafica è una memoria a doppia porta ad accesso casuale che consente di accedere al RAMDAC contemporaneamente all'elaborazione delle immagini. Generalmente può includere due parti: la prima è la parte elettronica digitale, utilizzata per accettare i comandi del microprocessore e formattare i dati ricevuti. l'altra è la parte generatore di immagini, che viene utilizzata per trasformare ulteriormente i dati sopra elencati in un segnale video.
Calcolo manuale
La formula di stima dell'uso della VRAM è la seguente:
Indirizzo di riferimento:Il login del link ipertestuale è visibile.
Stima VRAM
Questo strumento può stimare l'utilizzo della VRAM GPU di modelli basati su trasformatori per inferenza e addestramento. Può consentire l'inserimento di vari parametri come nome del modello, precisione, lunghezza massima della sequenza, dimensione del lotto, numero di GPU. Fornisce una suddivisione dettagliata dei parametri, delle attivazioni, delle uscite e dell'utilizzo della VRAM per i core CUDA.
Indirizzo:Il login del link ipertestuale è visibile., come mostrato nella figura sottostante:
Calcolatore di memoria modello Face Accelerate per abbracciare
Questo strumento calcola l'uso della memoria del modello utilizzato per inferenza e addestramento. Poiché è un link a Hugging Face, puoi inserire il nome del modello o URL, e lo strumento fornirà una suddivisione completa dell'uso della memoria, inclusi il tipo di dato, il livello più grande, la dimensione totale e l'uso della memoria di addestramento usando diversi ottimizzatori.
Indirizzo:Il login del link ipertestuale è visibile.
Posso far girare questo LLM
Si tratta di uno strumento più completo basato su Transformer che consente l'inserimento di vari parametri e fornisce una suddivisione dettagliata dell'uso della memoria. Fornisce una comprensione di come la memoria viene allocata e utilizzata durante l'inferenza e l'addestramento.
Indirizzo:Il login del link ipertestuale è visibile., come mostrato nella figura sottostante:
|
Precedente:Doppia precisione (FP64), precisione singola (P32, TF32), mezza precisione (FP16, BF16)Prossimo:Node.js Leggere tutti i file sotto la cartella (inclusi i sottofolder)
|