Questo articolo è un articolo speculare di traduzione automatica, clicca qui per saltare all'articolo originale.

Vista: 1437|Risposta: 0

[AI] (10) Stima della VRAM della memoria GPU a inferenza di grandi modelli LLM

[Copiato link]
Pubblicato il 10-03-2025 14:46:38 | | | |
Requisiti: Quando si implementa un grande modello linguistico (DeepSeek, qwen2.5), la memoria VRAM della GPU richiesta varia a seconda del numero di parametri, dell'attivazione, della dimensione del lotto di elaborazione e dei fattori di accuratezza del modello.

Introduzione alla VRAM

La VRAM (in inglese: Video RAM, cioè Video Random Access Memory) è un tipo di memoria per computer dedicata all'archiviazione dei dati grafici come i pixel. La DRAM (memoria) utilizzata come scheda grafica e scheda grafica è una memoria a doppia porta ad accesso casuale che consente di accedere al RAMDAC contemporaneamente all'elaborazione delle immagini. Generalmente può includere due parti: la prima è la parte elettronica digitale, utilizzata per accettare i comandi del microprocessore e formattare i dati ricevuti. l'altra è la parte generatore di immagini, che viene utilizzata per trasformare ulteriormente i dati sopra elencati in un segnale video.

Calcolo manuale

La formula di stima dell'uso della VRAM è la seguente:



Indirizzo di riferimento:Il login del link ipertestuale è visibile.

Stima VRAM

Questo strumento può stimare l'utilizzo della VRAM GPU di modelli basati su trasformatori per inferenza e addestramento. Può consentire l'inserimento di vari parametri come nome del modello, precisione, lunghezza massima della sequenza, dimensione del lotto, numero di GPU. Fornisce una suddivisione dettagliata dei parametri, delle attivazioni, delle uscite e dell'utilizzo della VRAM per i core CUDA.

Indirizzo:Il login del link ipertestuale è visibile., come mostrato nella figura sottostante:



Calcolatore di memoria modello Face Accelerate per abbracciare

Questo strumento calcola l'uso della memoria del modello utilizzato per inferenza e addestramento. Poiché è un link a Hugging Face, puoi inserire il nome del modello o URL, e lo strumento fornirà una suddivisione completa dell'uso della memoria, inclusi il tipo di dato, il livello più grande, la dimensione totale e l'uso della memoria di addestramento usando diversi ottimizzatori.

Indirizzo:Il login del link ipertestuale è visibile.


Posso far girare questo LLM


Si tratta di uno strumento più completo basato su Transformer che consente l'inserimento di vari parametri e fornisce una suddivisione dettagliata dell'uso della memoria. Fornisce una comprensione di come la memoria viene allocata e utilizzata durante l'inferenza e l'addestramento.

Indirizzo:Il login del link ipertestuale è visibile., come mostrato nella figura sottostante:





Precedente:Doppia precisione (FP64), precisione singola (P32, TF32), mezza precisione (FP16, BF16)
Prossimo:Node.js Leggere tutti i file sotto la cartella (inclusi i sottofolder)
Disconoscimento:
Tutto il software, i materiali di programmazione o gli articoli pubblicati dalla Code Farmer Network sono destinati esclusivamente all'apprendimento e alla ricerca; I contenuti sopra elencati non devono essere utilizzati per scopi commerciali o illegali, altrimenti gli utenti dovranno sostenere tutte le conseguenze. Le informazioni su questo sito provengono da Internet, e le controversie sul copyright non hanno nulla a che fare con questo sito. Devi eliminare completamente i contenuti sopra elencati dal tuo computer entro 24 ore dal download. Se ti piace il programma, ti preghiamo di supportare software autentico, acquistare la registrazione e ottenere servizi autentici migliori. In caso di violazione, vi preghiamo di contattarci via email.

Mail To:help@itsvse.com