Project DIGITS darbina NVIDIA GB10 Grace Blackwell Superchip, kas nodrošina eksalīmeņa peldošā komata AI veiktspēju energoefektīvā, kompaktā formā. Izmantojot iepriekš instalētu NVIDIA AI programmatūras kaudzi un 128 GB atmiņu, izstrādātāji var lokāli prototipēt, precizēt un noteikt lielus AI modeļus ar līdz 200 B parametriem un nemanāmi izvietot tos datu centros vai mākonī.
Oficiālā mājas lapa:Hipersaites pieteikšanās ir redzama. Vairāk ievada:Hipersaites pieteikšanās ir redzama.
GB10 supermikroshēma nodrošina eksabaitu efektīvu AI veiktspēju
GB10 Superchip ir sistēma mikroshēmā (SoC), kuras pamatā ir NVIDIA Grace Blackwell arhitektūra, nodrošinot līdz pat 100 triljoniem AI veiktspēju ar FP4 precizitāti.
GB10, ko darbina NVIDIA Blackwell GPU, ir aprīkots ar jaunākās paaudzes CUDA® kodoliem un piektās paaudzes Tensor kodoliem, kas savienoti ar augstas veiktspējas NVIDIA Grace™ procesoriem, izmantojot NVLink-C2C ® mikroshēmas-mikroshēmas starpsavienojumus, ieskaitot 20 energoefektīvus kodolus, kas veidoti ar Arm arhitektūru. MediaTek, tirgus līderis Arm SoC dizainā, bija iesaistīts GB10 dizainā, veicinot tā labāko energoefektivitāti, veiktspēju un savienojamību.
GB10 supermikroshēma ļauj Project DIGITS nodrošināt jaudīgu veiktspēju, izmantojot tikai standarta kontaktligzdu. Katram Project DIGITS ir 128 GB vienotas, konsekventas atmiņas un līdz 4 TB NVMe atmiņas. Izmantojot šo superdatoru, izstrādātāji var darbināt lielus valodas modeļus ar līdz pat 200 miljardiem parametru, uzlabojot AI inovācijas. Turklāt, izmantojot NVIDIA ConnectX ® tīklu, var savienot divus Project DIGITS AI superdatorus, lai palaistu modeļus ar līdz 405 miljardiem parametru.
────── 1. Īss pamatojums ────── AI paātrinātāja kartei no "Project Digits" var būt šādas pārsteidzošas specifikācijas: • 128 GB video atmiņa • Aptuveni 512 GB/s joslas platums • Aptuveni 250 TFLOPS (fp16) • Pārdošanas cena var būt aptuveni 3000 USD
Daži cilvēki to salīdzina ar Apple M4 Pro / Max un tirgū esošajiem galvenajiem GPU un piemin nedaudz mārketinga saukli "1 PFLOPS", taču faktiskā efektīvā skaitļošanas jauda ir rūpīgi jāizsver.
───────── 2. Galvenie parametri un nozīme ───────── 1. Peldošā komata skaitļošanas jauda (FLOPS) • 250 TFLOPS (fp16) izklausās vilinoši, bet aparatūra un programmatūra strādā kopā, lai patiešām radītu atšķirību. • "1 PFLOPS" parasti attiecas uz teorētisko maksimumu zemākas precizitātes režīmā, vai arī tā var būt parastā "skaitļu spēle" reklāmā. 2. Video atmiņa/vienotā atmiņa (128 GB) •Dažādiem AI modeļiem video atmiņas ietilpība ir galvenais rādītājs, kas liecina par spēju piemērot modeli; 128 GB ir pietiekami, lai atbalstītu secinājumus un vidēja mēroga apmācību. • Trenējot 10 ~ 20B parametru modeli (vai vairāk), izmantojiet miksēšanas precizitāti vai precīzas regulēšanas paņēmienus, lai maksimāli izmantotu šo lielo atmiņu. 3. Atmiņas joslas platums (~512 GB/s) • Joslas platums nosaka, vai skaitļošanas kodols var "apēst datus". • Lai gan tas nav tik labs kā datu centra līmenis (1 TB / s ~ 2 TB / s vai vairāk), tas jau ir augsts līmenis personīgajai / darbstacijas līmeņa platformai. • Tas, vai skaitļošanas jauda un joslas platums ir līdzsvaroti, ir atkarīgs arī no kešatmiņas/operatora optimizācijas arhitektūrā. Var nepietikt, lai aplūkotu skaitļus, bet arī aplūkotu reālo skriešanas rezultātu. 4. Cena un ekoloģija • Viena karte aptuveni 3,000 USD (ja tā ir taisnība) ir pievilcīga daudziem izstrādātājiem vai mazām komandām; Tas ir potenciāls konkurences punkts ar patēriņa klases augstākās klases GPU, piemēram, RTX 4090. • Tomēr, ja programmatūras kaudze (draiveri, kompilatori, dziļās mācīšanās sistēmas) nav ideāla, liela skaitļošanas jauda joprojām var "apgulties un ēst pelnus".
─────────── 3. Ietekme uz liela modeļa uzdevumiem ─────────── 1. Liela modeļa pamatojums • 128 GB video atmiņas ir pietiekami, lai atbalstītu miljardiem līdz desmitiem miljardu parametru modeļu, kas "ielādēti atmiņā uzreiz" pusprecizitātes vai kvantu režīmā, un secinājumu efektivitāte, visticamāk, būs diezgan augsta. • Ja joslas platumu un kešatmiņu var izmantot labi, latentums un caurlaidspēja secinājumu laikā var būt apmierinoši. 2. Maza un vidēja mēroga apmācība • Modeļiem ar simtiem miljonu līdz miljardiem parametru ir iespējams veikt visu procesu apmācību ar jauktu precizitāti šajā kartē. • 30B ~ 70B modeļiem parasti ir nepieciešamas kvantēšanas metodes vai vairāku karšu paralēlisms, bet mazām komandām tā joprojām ir pieejamāka metode nekā dārgi datu centru risinājumi. 3. Joslas platuma vājās vietas un skaitļošanas jaudas izšķērdēšana • 250 TFLOPS prasa efektīvu datu piegādi, lai to pilnībā izmantotu. • 512 GB/s nav "mazs skaitlis", bet tas, vai tas patiešām spēj darbināt pilnu skaitļošanas jaudu, ir atkarīgs no izmērītās un operatora līmeņa regulēšanas.
──────────── 4. Īss salīdzinājums ar citām iespējām ──────────── 1. Apple M4 sērija • M4 Pro/Max ir pazīstams arī ar lielu joslas platumu un lielu skaitļošanas jaudu; Tomēr, runājot par faktisko sistēmas saderību un dziļās mācīšanās optimizāciju, tas vēl nav vienāds ar NVIDIA. • Ja "Project Digits" nav nobriedušas ekosistēmas, tas var sekot arī Apple GPU pēdās. Neatkarīgi no tā, cik laba ir aparatūra, ir grūti izlauzties, ja programmatūras pielāgošana nav ieviesta. 2. NVIDIA darbvirsmas karte (piemēram, RTX 4090) •RTX 4090 ir spēcīga skaitļošanas jauda un ievērojams joslas platums, taču dažos lielos modeļos tiks "izstiepts" tikai 24 GB. • Ja paralēli ir nepieciešamas vairākas kartes, izmaksas un enerģijas patēriņš strauji palielinās, un "Project Digits" acīmredzami ir ērtāk nodrošināt 128 GB vienā kartē. 3. Datu centra GPU (A100 / H100) • Šie lielā brāļa līmeņa GPU maksā desmitiem tūkstošu vai pat desmitiem tūkstošu dolāru, un veiktspēja un ekoloģija ir neapšaubāma, taču ne visi tos var atļauties. • Ja "Project Digits" patiešām var ļaut mazām komandām iegūt lielu video atmiņu un lielu skaitļošanas jaudu ar zemāku slieksni, tas var iegūt gabalu no pīrāga.
────────── 5. Iespējamās problēmas un bažas ────────── 1. Programmatūras ekoloģija un draiveru briedums • CUDA ir NVIDIA slepenais ierocis. Bez līdzīgas stabilas ekosistēmas "Project Digits" ir grūti popularizēt plašā mērogā. 2. Skaitļošanas jaudas/joslas platuma faktiskais ierašanās ātrums • Faktiskajam operatoram ir daudz atmiņas piekļuves režīmu, un, ja trūkst optimizācijas, maksimālā veiktspēja var palikt tikai reklāmas materiālos. 3. Enerģijas patēriņš, siltuma izkliedēšana un pielāgošanās videi • Liela video atmiņa un liela skaitļošanas jauda bieži nozīmē lielu enerģijas patēriņu. Ja personīgās vai mazās darbstacijas nav gatavas siltuma izkliedēšanai, tās var saskarties ar "nelielu plīti". 4. Piedāvājuma un cenu autentiskums • Novērojiet, vai nākotnē būs vairāk oficiālas informācijas vai reālu produktu atsauksmju; Ja tas ir tikai konceptuāls produkts, tas var būt arī "tukšs prieks".
───── 6. Kopsavilkums ───── Ja "Project Digits" var piedāvāt 128 GB video atmiņas un 250 TFLOPS (fp16), kā arī draudzīgu cenu aptuveni 3,000 USD, tas būs ļoti pievilcīgs izstrādātājiem, kuri vēlas izvietot vidēja izmēra modeļus lokāli vai mazās laboratorijās. Tomēr aparatūras parametri galu galā ir tikai viena puse; Panākumu vai neveiksmes atslēga ir draiveris, kompilators, dziļās mācīšanās sistēma un cits programmatūras atbalsts. Šobrīd šis projekts joprojām ir "jaunāko ziņu" un "publicitātes" stadijā, un tas, vai tas var satricināt esošo tirgus modeli, ir atkarīgs no turpmākā produktizācijas procesa un reālā snieguma rādītāja.
|