Project DIGITS drives af NVIDIA GB10 Grace Blackwell Superchip, der leverer exascale flydende kommatal-AI-ydeevne i en energieffektiv, kompakt formfaktor. Med en forudinstalleret NVIDIA AI-softwarestack og 128 GB hukommelse kan udviklere lokalt prototype, finjustere og rationalisere store AI-modeller med op til 200 milliarder parametre og problemfrit implementere dem i datacentre eller skyen.
Officiel hjemmeside:Hyperlink-login er synlig. Mere introduktion:Hyperlink-login er synlig.
GB10 superchippen leverer exabytes af effektiv AI-ydelse
GB10 Superchip er et system-on-chip (SoC) baseret på NVIDIA Grace Blackwell-arkitekturen, der leverer op til 100 billioner AI-ydelse med FP4-nøjagtighed.
Drevet af NVIDIA Blackwell GPU'er er GB10 udstyret med den nyeste generation af CUDA-kerner® og femte generation Tensor-kerner, forbundet til højtydende NVIDIA Grace™ CPU'er via NVLink-C2C ® chip-til-chip-forbindelser, herunder 20 energieffektive kerner bygget med Arm-arkitektur. MediaTek, en markedsleder inden for Arm-baseret SoC-design, var involveret i designet af GB10 og bidrog til dens bedste energieffektivitet, ydeevne og forbindelse.
GB10 superchippen gør det muligt for Project DIGITS at levere kraftig ydeevne ved kun at bruge en standard strømudtag. Hver Project DIGITS har 128 GB ensartet, ensartet hukommelse og op til 4 TB NVMe-lager. Med denne supercomputer kan udviklere køre store sprogmodeller med op til 200 milliarder parametre, hvilket styrker AI-innovation. Derudover kan to Project DIGITS AI-supercomputere forbindes ved hjælp af NVIDIA ConnectX-netværket ® for at køre modeller med op til 405 milliarder parametre.
────── 1. Kort baggrund ────── AI-acceleratorkortet fra "Project Digits" kan have følgende fantastiske specifikationer: • 128 GB videohukommelse • Ca. 512 GB/s båndbredde • Ca. 250 TFLOPS (fp16) • Salgsprisen kan være omkring 3000 dollars
Nogle sammenligner den med Apples M4 Pro/Max og mainstream GPU'er på markedet og nævner det let markedsførte slogan "1 PFLOPS", men den faktiske effektive regnekraft skal vurderes nøje.
───────── 2. Kerneparametre og betydning ───────── 1. Flydende kommatal-regnekraft (FLOPS) • 250 TFLOPS (fp16) lyder fristende, men hardware og software arbejder sammen for virkelig at gøre en forskel. • "1 PFLOPS" refererer normalt til det teoretiske maksimum i lavere præcisionstilstand, eller det kan også være det sædvanlige "talspil" i reklame. 2. Videohukommelse/samlet hukommelse (128 GB) •For forskellige AI-modeller er videohukommelseskapacitet en nøgleindikator for "at kunne tilpasse en model"; 128 GB er nok til at understøtte inferens- og mellemskala træning. • Når du træner en 10~20B parametermodel (eller flere), brug mixepræcision eller finjusteringsteknikker passende for at få mest muligt ud af denne store hukommelse. 3. Hukommelsesbåndbredde (~512 GB/s) • Båndbredden afgør, om computerkernen kan "sluge dataene". • Selvom det ikke er lige så godt som datacenterniveauet (1 TB/s~2 TB/s eller mere), er det allerede et højt niveau for en personlig eller arbejdsstationsplatform. • Om regnekraft og båndbredde er balanceret, afhænger også af cache-/operatoroptimeringen i arkitekturen. Det er måske ikke nok at se på tallene, men også at se på den reelle løbende score. 4. Pris og økologi • Et enkelt kort på omkring $3.000 (hvis det er sandt) er attraktivt for mange udviklere eller små teams; Dette er et potentielt konkurrencepunkt med forbrugerkvalitets high-end GPU'er som RTX 4090. • Men hvis softwarestakken (drivere, compilere, deep learning-rammeværk) ikke er perfekt, kan høj regnekraft stadig "ligge og spise aske".
─────────── 3. Indvirkning på store modelopgaver ─────────── 1. Stor modelræsonnement • 128 GB videohukommelse er nok til at understøtte milliarder til titusinder af milliarder af parametermodeller "indlæst i hukommelsen på én gang" i halvpræcisions- eller kvantiseret tilstand, og inferenseffektiviteten vil sandsynligvis være ret høj. • Hvis båndbredde og cache kan bruges godt, kan latenstid og gennemstrømning under inferensen være tilfredsstillende. 2. Træning i små og mellemstore skalaer • For modeller med hundredvis af millioner til milliarder af parametre er det muligt at køre hele procestræningen med blandet præcision på dette kort. • For 30B~70B-modeller kræves kvantiseringsteknikker eller multi-card parallelisme, men for små teams er det stadig en mere overkommelig metode end dyre datacenterløsninger. 3. Båndbreddeflaskehalse og spild af computerkraft • 250 TFLOPS kræver effektiv dataforsyning for at kunne udnyttes fuldt ud. • 512 GB/s er ikke et "lille tal", men om det virkelig kan køre den fulde regnekraft afhænger af den målte og operatørniveau-tuning.
──────────── 4. Kort sammenligning med andre muligheder ──────────── 1. Apple M4-serien • M4 Pro/Max er også kendt for sin høje båndbredde og høje regnekraft; Dog er det endnu ikke på niveau med NVIDIA, når det gælder faktisk framework-kompatibilitet og optimering af deep learning. • Hvis "Project Digits" ikke har et modent økosystem, kan det også følge i fodsporene på Apples GPU'er. Uanset hvor god hardwaren er, er det svært at bryde igennem, hvis softwaretilpasningen ikke er på plads. 2. NVIDIA desktop-kort (som RTX 4090) •RTX 4090 har stærk regnekraft og betydelig båndbredde, men kun 24 GB vil blive "strakt" på nogle store modeller. • Når flere kort kræves parallelt, stiger omkostninger og strømforbrug markant, og det er åbenlyst mere bekvemt for "Project Digits" at levere 128 GB på ét enkelt kort. 3. Datacenter-GPU (A100/H100) •Disse storebror-niveau GPU'er koster titusindvis eller endda titusindvis af dollars, og ydeevnen og økologien er ubestridelige, men ikke alle har råd til dem. • Hvis "Project Digits" virkelig kan give små teams mulighed for at have stor videohukommelse og høj regnekraft med en lavere tærskel, kan det måske få en bid af kagen.
────────── 5. Potentielle udfordringer og bekymringer ────────── 1. Softwareøkologi og drivermodenhed • CUDA er NVIDIAs hemmelige våben. Uden et tilsvarende solidt økosystem er det svært for "Project Digits" at blive populært i stor skala. 2. Den faktiske ankomsthastighed af computerkraft/båndbredde • Den faktiske kørende operatør har mange hukommelsesadgangstilstande, og hvis der mangler optimering, kan toppræstationen kun blive i reklamematerialet. 3. Strømforbrug, varmeafledning og miljøtilpasning • Stor videohukommelse og høj regnekraft betyder ofte et højt strømforbrug. Hvis personlige eller små arbejdsstationer ikke er klar til varmeafledning, kan de stå over for en "lille komfur". 4. Udbud og prisfastsættelse: ægthed • Observere, om der kommer mere officiel information eller reelle produktanmeldelser i fremtiden; Hvis det bare er et konceptprodukt, kan det også være "tom glæde".
───── 6. Resumé ───── Hvis "Project Digits" kan tilbyde 128 GB videohukommelse og 250 TFLOPS (fp16) samt en venlig pris på omkring 3.000 dollars, vil det være meget attraktivt for udviklere, der ønsker at implementere mellemstore modeller lokalt eller i små laboratorier. Dog er hardwareparametre trods alt kun én side; Nøglen til succes eller fiasko er driveren, compileren, deep learning-rammeværket og anden softwareunderstøttelse. På nuværende tidspunkt befinder dette projekt sig stadig i stadiet med "breaking news" og "publicity", og om det kan ryste det eksisterende markedsmønster afhænger af den efterfølgende produktiseringsproces og den reelle performance score.
|