Projekt DIGITS je poháněn čipem NVIDIA GB10 Grace Blackwell Superchip, který poskytuje exascale výkon s plovoucí desetinnou čárkou v energeticky úsporném a kompaktním formátu. S předinstalovaným AI softwarovým stackem NVIDIA a 128GB paměti mohou vývojáři lokálně prototypovat, dolaďovat a uvažovat velké AI modely s parametry až 200B a bezproblémově je nasazovat do datových center nebo cloudu.
Oficiální webové stránky:Přihlášení k hypertextovému odkazu je viditelné. Další úvod:Přihlášení k hypertextovému odkazu je viditelné.
Superčip GB10 přináší exabajty efektivního výkonu v AI
GB10 Superchip je systém na čipu (SoC) založený na architektuře NVIDIA Grace Blackwell, který poskytuje až 100 bilionů AI výkonu s přesností FP4.
GB10, poháněný grafickými kartami NVIDIA Blackwell, je vybaven nejnovější generací CUDA® jader a pátou generací Tensor jader, připojenými k vysoce výkonným procesorům NVIDIA Grace™ přes NVLink-C2C ® čip-do-čip propojení, včetně 20 energeticky úsporných jader postavených na architektuře Arm. MediaTek, lídr na trhu v návrhu SoC založeném na Arm, se podílel na návrhu GB10, což přispělo k jeho nejlepší energetické účinnosti, výkonu a konektivitě ve své třídě.
Superčip GB10 umožňuje Project DIGITS dosahovat výkonného výkonu pouze pomocí standardní zásuvky. Každý Project DIGITS nabízí 128GB jednotné, konzistentní paměti a až 4TB NVMe úložiště. S tímto superpočítačem mohou vývojáři spouštět velké jazykové modely až s 200 miliardami parametrů, čímž podporují inovace v AI. Kromě toho lze pomocí sítě NVIDIA ConnectX ® připojit dva superpočítače Project DIGITS AI, které spouštějí modely s až 405 miliardami parametrů.
────── 1. Stručné pozadí ────── AI akcelerační karta od "Project Digits" může mít následující úžasné specifikace: • 128 GB video paměti • Přibližně 512 GB/s šířka pásma • Přibližně 250 TFLOPS (fp16) • Prodejní cena může být kolem 3000 USD
Někteří lidé ho srovnávají s Apple M4 Pro/Max a běžnými GPU na trhu a zmiňují mírně marketingový slogan "1 PFLOPS", ale skutečný efektivní výpočetní výkon je třeba pečlivě zvážit.
───────── 2. Základní parametry a význam ───────── 1. Výpočetní výkon pro pohyblivou desetinnou čárku (FLOPS) • 250 TFLOPS (fp16) zní lákavě, ale hardware a software spolupracují, aby opravdu udělaly rozdíl. • "1 PFLOPS" obvykle označuje teoretický vrchol v režimu nižší přesnosti, nebo může být také obvyklou "číselnou hrou" v reklamě. 2. Video paměť/sjednocená paměť (128 GB) • Pro různé AI modely je kapacita video paměti klíčovým ukazatelem "schopnosti přizpůsobit model"; 128 GB stačí na podporu inference a středně rozsáhlého tréninku. • Při trénování modelu s parametry 10~20B (nebo více) použijte vhodné techniky míchání nebo jemného ladění, abyste z této velké paměti vytěžili maximum. 3. Šířka pásma (~512 GB/s) • Šířka pásma určuje, zda výpočetní jádro dokáže "spotřebovat data". •Ačkoliv není tak dobrá jako úroveň datového centra (1 TB/s~2 TB/s nebo více), je to už vysoká úroveň pro osobní nebo pracovní platformu. • Zda je výpočetní výkon a šířka pásma vyvážené, závisí také na optimalizaci cache/operátora v architektuře. Nemusí stačit podívat se na čísla, ale také na skutečné běžné skóre. 4. Cena a ekologie • Jedna karta za přibližně 3 000 $ (pokud je pravdivá) je atraktivní pro mnoho vývojářů nebo malých týmů; To je potenciální konkurenční bod spotřebitelských špičkových GPU, jako je RTX 4090. • Pokud však softwarový stack (ovladače, kompilátory, frameworky hlubokého učení) není dokonalý, může vysoký výpočetní výkon stále "ležet a požírat popel".
─────────── 3. Dopad na velké modelové úkoly ─────────── 1. Uvažování velkých modelů • 128 GB video paměti stačí k podpoře miliard až desítek miliard parametrových modelů "načtených do paměti najednou" v režimu poloviční přesnosti nebo kvantizování a efektivita inference bude pravděpodobně velmi vysoká. • Pokud lze dobře využít šířku pásma a cache, latence a propustnost během inference mohou být uspokojivé. 2. Malé a střední školení • Pro modely se stovkami milionů až miliardami parametrů je možné na této kartě spustit trénink celého procesu s míšenou přesností. • Pro modely 30B~70B jsou obvykle vyžadovány kvantizační techniky nebo vícekartový paralelismus, ale pro malé týmy je to stále cenově dostupnější metoda než drahá řešení datových center. 3. Úzká místa v přenosové šířce a plýtvání výpočetním výkonem • 250 TFLOPS vyžaduje efektivní dodávku dat pro plné využití. • 512 GB/s není "malé číslo", ale zda skutečně zvládne plný výpočetní výkon, závisí na měřeném a operátorském nastavení.
──────────── 4. Krátké srovnání s jinými možnostmi ──────────── 1. Řada Apple M4 • M4 Pro/Max je také známý svou vysokou šířkou pásma a vysokým výpočetním výkonem; Co se týče skutečné kompatibility frameworků a optimalizace hlubokého učení, zatím není na úrovni NVIDIA. • Pokud "Project Digits" nemá vyspělý ekosystém, může také následovat kroky Apple GPU. Bez ohledu na kvalitu hardwaru je těžké prorazit, pokud není softwarová adaptace k dispozici. 2. NVIDIA desktopová karta (například RTX 4090) • RTX 4090 má silný výpočetní výkon a značnou šířku pásma, ale u některých velkých modelů bude "nataženo" pouze 24 GB. • Když je potřeba více karet paralelně, náklady a spotřeba energie prudce rostou a je samozřejmě pohodlnější, aby "Project Digits" poskytli 128 GB na jedné kartě. 3. GPU datového centra (A100/H100) • Tyto GPU na úrovni velkých bratrů stojí desítky tisíc nebo dokonce desítky tisíc dolarů a jejich výkon i ekologie jsou nepopiratelné, ale ne každý si je může dovolit. •Pokud "Project Digits" opravdu umožní malým týmům mít velkou video paměť a vysoký výpočetní výkon s nižším prahem, může si to užít i jako kousek koláče.
────────── 5. Potenciální výzvy a obavy ────────── 1. Softwarová ekologie a zralost ovladačů • CUDA je tajná zbraň NVIDIA. Bez podobně pevného ekosystému je obtížné, aby se "Project Digits" prosadil ve velkém měřítku. 2. Skutečná rychlost příchodu výpočetního výkonu/šířky pásma • Skutečný provozovatel má mnoho režimů přístupu k paměti a pokud chybí optimalizace, maximální výkon může zůstat pouze v propagačních materiálech. 3. Spotřeba energie, odvod tepla a adaptace na prostředí • Velká video paměť a vysoký výpočetní výkon často znamenají vysokou spotřebu energie. Pokud osobní nebo malé pracovní stanice nejsou připraveny na odvod tepla, mohou čelit "malému sporáku". 4. Autentičnost nabídky a ceny • Sledovat, zda v budoucnu nebudou oficiální informace nebo skutečné recenze produktů; Pokud jde jen o konceptuální produkt, může to být také "prázdná radost".
───── 6. Shrnutí ───── Pokud "Project Digits" nabídne 128 GB video paměti a 250 TFLOPS (fp16), plus příjemnou cenu kolem 3 000 dolarů, bude velmi atraktivní pro vývojáře, kteří chtějí nasazovat středně velké modely lokálně nebo v malých laboratořích. Nicméně hardwarové parametry jsou přece jen jedna strana; Klíčem k úspěchu či neúspěchu je ovladač, kompilátor, framework hlubokého učení a další softwarová podpora. V současnosti je tento projekt stále ve fázi "breaking news" a "publicity" a zda dokáže otřást stávajícím tržním vzorem, závisí na následném procesu produktizace a skutečném výkonnostním skóre.
|