[AI] (10) LLM stor modell inferens, GPU-minne VRAM-estimering

Lille skurk · Publisert på 10.03.2025 14:46:38

Krav: Når man distribuerer en stor språkmodell (DeepSeek, qwen2.5), varierer VRAM-minnet til den nødvendige GPU-en avhengig av antall parametere, aktivering, prosesseringsbatchstørrelse og nøyaktighetsfaktorer i modellen.

VRAM Introduksjon

VRAM (norsk: Video RAM, altså Video Random Access Memory) er en type datamaskinminne dedikert til å lagre grafikkdata som piksler. DRAM (minne) brukt som et grafikkort og grafikkort er et dobbeltports tilfeldig tilgangsminne som gjør det mulig å aksessere RAMDAC samtidig med bildebehandling. Den kan vanligvis bestå av to deler, den første er den digitale elektroniske delen, som brukes til å motta kommandoen fra mikroprosessoren og formatere de mottatte dataene. den andre er bildegeneratordelen, som brukes til å videreforme dataene ovenfor til et videosignal.

Manuell beregning

VRAM-estimeringsformelen er som følger:

Referanseadresse:Innloggingen med hyperkoblingen er synlig.

VRAM-estimator

Dette verktøyet kan estimere GPU-VRAM-bruken av transformatorbaserte modeller for slutning og trening. Den kan tillate inntasting av ulike parametere som modellnavn, presisjon, maksimal sekvenslengde, batchstørrelse og antall GPU-er. Gir en detaljert oversikt over parametere, aktiveringer, utganger og VRAM-bruk for CUDA-kjerner.

Adresse:Innloggingen med hyperkoblingen er synlig., som vist i figuren nedenfor:

Hugging Face Accelerate Model Memory Kalkulator

Dette verktøyet beregner minnebruken til modellen som brukes til slutning og trening. Siden det er en lenke til Hugging Face, kan du skrive inn modellnavnet eller URL-en, og verktøyet vil gi en omfattende oversikt over minnebruk, inkludert datatype, største nivå, total størrelse og treningsminnebruk ved bruk av ulike optimalisatorer.

Adresse:Innloggingen med hyperkoblingen er synlig.

Kan jeg kjøre denne LLM-en

Dette er et mer omfattende Transformer-basert verktøy som tillater inntasting av ulike parametere og gir en detaljert oversikt over minnebruk. Gir innsikt i hvordan hukommelse tildeles og brukes under slutning og opplæring.

Adresse:Innloggingen med hyperkoblingen er synlig., som vist i figuren nedenfor:

[AI] (10) LLM stor modell inferens, GPU-minne VRAM-estimering

Relaterte innlegg

Seksjoner sett