Project DIGITS drives av NVIDIA GB10 Grace Blackwell Superchip, som leverer exascale flyttalls-AI-ytelse i en energieffektiv, kompakt formfaktor. Med en forhåndsinstallert NVIDIA AI-programvarestabel og 128 GB minne kan utviklere lokalt prototype, finjustere og resonere store AI-modeller med opptil 200 B parametere, og sømløst distribuere dem til datasentre eller skyen.
Offisiell nettside:Innloggingen med hyperkoblingen er synlig. Mer introduksjon:Innloggingen med hyperkoblingen er synlig.
GB10-superbrikken leverer exabyte med effektiv AI-ytelse
GB10 Superchip er et system-on-chip (SoC) basert på NVIDIA Grace Blackwell-arkitekturen, som leverer opptil 100 billioner AI-ytelse med FP4-nøyaktighet.
Drevet av NVIDIA Blackwell-GPUer, er GB10 utstyrt med nyeste generasjon CUDA-kjerner® og femte generasjons Tensor-kjerner, koblet til høyytelses NVIDIA Grace-prosessorer™ via NVLink-C2C ® brikke-til-brikke-forbindelser, inkludert 20 energieffektive kjerner bygget med Arm-arkitektur. MediaTek, en markedsleder innen Arm-basert SoC-design, var involvert i designet av GB10 og bidro til dens førsteklasses energieffektivitet, ytelse og tilkobling.
GB10 superbrikken gjør at Project DIGITS kan levere kraftig ytelse kun ved å bruke en standard strømkontakt. Hver Project DIGITS har 128 GB samlet, konsistent minne og opptil 4 TB NVMe-lagring. Med denne superdatamaskinen kan utviklere kjøre store språkmodeller med opptil 200 milliarder parametere, noe som forbedrer AI-innovasjon. I tillegg kan to Project DIGITS AI-superdatamaskiner kobles sammen ved hjelp av NVIDIA ConnectX-nettverket ® for å kjøre modeller med opptil 405 milliarder parametere.
────── 1. Kort bakgrunn ────── AI-akseleratorkortet fra "Project Digits" kan ha følgende fantastiske spesifikasjoner: • 128 GB videominne • Ca. 512 GB/s båndbredde • Ca. 250 TFLOPS (fp16) • Salgsprisen kan være rundt 3000 dollar
Noen sammenligner den med Apples M4 Pro/Max og vanlige GPU-er på markedet, og nevner det svake markedsføringsslagordet «1 PFLOPS», men den faktiske effektive datakraften må vurderes nøye.
───────── 2. Kjerneparametere og betydning ───────── 1. Flyttallsdatakraft (FLOPS) • 250 TFLOPS (fp16) høres fristende ut, men maskinvare og programvare samarbeider for virkelig å utgjøre forskjellen. • «1 PFLOPS» refererer vanligvis til det teoretiske topppunktet i lavere presisjonsmodus, eller det kan også være det vanlige «tallspillet» i reklame. 2. Videominne/enhetlig minne (128 GB) •For ulike AI-modeller er videominnekapasitet en nøkkelindikator på «å kunne tilpasse en modell»; 128 GB er nok til å støtte inferens- og middels omfattende trening. • Når du trener en modell med 10~20B parametere (eller flere), bruk miksepresisjon eller finjusteringsteknikker riktig for å få mest mulig ut av dette store minnet. 3. Minnebåndbredde (~512 GB/s) • Båndbredde avgjør om datakjernen kan «spise opp dataene». •Selv om det ikke er like bra som datasenternivået (1 TB/s~2 TB/s eller mer), er det allerede et høyt nivå for en personlig eller arbeidsstasjonsplattform. • Om datakraften og båndbredden er balansert avhenger også av cache-/operatoroptimaliseringen i arkitekturen. Det er kanskje ikke nok å se på tallene, men også å se på den faktiske løpende poengsummen. 4. Pris og økologi • Et enkelt kort på rundt 3 000 dollar (hvis det stemmer) er attraktivt for mange utviklere eller små team; Dette er et potensielt konkurransepunkt med forbrukerkvalitets high-end GPU-er som RTX 4090. • Men hvis programvarestakken (drivere, kompilatorer, dyp læringsrammeverk) ikke er perfekt, kan høy datakraft fortsatt «ligge og spise aske».
─────────── 3. Innvirkning på store modelloppgaver ─────────── 1. Stor modellresonnement • 128 GB videominne er nok til å støtte milliarder til timange milliarder parametermodeller «lastet inn i minnet samtidig» i halvpresisjons- eller kvantisert modus, og slutningseffektiviteten vil sannsynligvis være ganske høy. • Hvis båndbredde og cache kan brukes godt, kan latens og gjennomstrømning under inferensen være tilfredsstillende. 2. Opplæring i liten og mellomstor skala • For modeller med hundrevis av millioner til milliarder av parametere, er det mulig å kjøre hele prosesstreningen med blandet presisjon på dette kortet. • For 30B~70B-modeller kreves vanligvis kvantiseringsteknikker eller parallellitet med flere kort, men for små team er det fortsatt en rimeligere metode enn dyre datasenterløsninger. 3. Båndbreddeflaskehalser og sløsing med datakraft • 250 TFLOPS krever effektiv datatilførsel for å være fullt utnyttet. • 512 GB/s er ikke et «lite tall», men om den virkelig kan kjøre full datakraft avhenger av målt og operatørnivå-tuning.
──────────── 4. Kort sammenligning med andre alternativer ──────────── 1. Apple M4-serien • M4 Pro/Max er også kjent for sin høye båndbredde og høye datakraft; Når det gjelder faktisk rammeverkskompatibilitet og optimalisering av dyp læring, er det imidlertid ennå ikke på nivå med NVIDIA. • Hvis "Project Digits" ikke har et modent økosystem, kan det også følge i fotsporene til Apples GPU-er. Uansett hvor god maskinvaren er, er det vanskelig å bryte gjennom hvis programvaretilpasningen ikke er på plass. 2. NVIDIA stasjonærkort (som RTX 4090) •RTX 4090 har sterk datakraft og betydelig båndbredde, men kun 24 GB vil bli "strakt" på noen store modeller. • Når flere kort kreves parallelt, øker kostnaden og strømforbruket kraftig, og det er åpenbart mer praktisk for "Project Digits" å tilby 128 GB på ett enkelt kort. 3. Datacenter-GPU (A100/H100) •Disse storebror-nivå GPU-ene koster titusenvis eller til og med titusenvis av dollar, og ytelsen og økologien er udiskutabel, men ikke alle har råd til dem. •Hvis "Project Digits" virkelig kan tillate små team å ha stort videominne og høy datakraft med lavere terskel, kan det hende de får en bit av kaken.
────────── 5. Potensielle utfordringer og bekymringer ────────── 1. Programvareøkologi og drivermodenhet • CUDA er NVIDIAs hemmelige våpen. Uten et tilsvarende solid økosystem er det vanskelig for «Project Digits» å bli populært i stor skala. 2. Den faktiske ankomsthastigheten for datakraft/båndbredde • Den faktiske operatøren har mange minnetilgangsmoduser, og hvis det mangler optimalisering, kan toppytelsen bare forbli i reklamemateriellet. 3. Strømforbruk, varmeavledning og miljøtilpasning • Stort videominne og høy datakraft betyr ofte høyt strømforbruk. Hvis personlige eller små arbeidsplasser ikke er klare for varmeavledning, kan de møte en «liten ovn». 4. Levering og pris, autentisitet • Observere om det kommer mer offisiell informasjon eller reelle produktanmeldelser i fremtiden; Hvis det bare er et konseptprodukt, kan det også være «tom glede».
───── 6. Sammendrag ───── Hvis "Project Digits" kan tilby 128 GB videominne og 250 TFLOPS (fp16), pluss en vennlig pris på rundt 3 000 dollar, vil det være svært attraktivt for utviklere som ønsker å distribuere mellomstore modeller lokalt eller i små laboratorier. Men maskinvareparametere er tross alt bare én side; Nøkkelen til suksess eller fiasko er driveren, kompilatoren, deep learning-rammeverket og annen programvarestøtte. For øyeblikket er dette prosjektet fortsatt i fasen med «breaking news» og «publisitet», og om det kan ryste det eksisterende markedsmønsteret avhenger av den påfølgende produktiseringsprosessen og den reelle ytelsesscoren.
|