Acest articol este un articol oglindă al traducerii automate, vă rugăm să faceți clic aici pentru a sări la articolul original.

Vedere: 1741|Răspunde: 5

Supercomputerul personal AI al Proiectului NVIDIA DIGITS

[Copiază linkul]
Postat pe 2025-2-13 09:43:00 | | | |
Project DIGITS este alimentat de NVIDIA GB10 Grace Blackwell Superchip, oferind performanțe AI exascale în virgulă mobilă într-un format compact și eficient energetic. Cu un stack software NVIDIA AI preinstalat și 128GB de memorie, dezvoltatorii pot prototipa local, ajusta fin și pot rezonează modele AI mari cu parametri de până la 200B și le pot implementa fără probleme în centre de date sau în cloud.



Site oficial:Autentificarea cu hyperlink este vizibilă.
Mai multe introduceri:Autentificarea cu hyperlink este vizibilă.

Supercipul GB10 oferă exabiți de performanță AI eficientă

GB10 Superchip este un sistem pe cip (SoC) bazat pe arhitectura NVIDIA Grace Blackwell, oferind până la 100 de trilioane de performanțe AI cu acuratețe FP4.

Alimentat de plăci video NVIDIA Blackwell, GB10 este echipat cu cele mai noi nuclee CUDA® și nuclee Tensor de generația a cincea, conectate la procesoare NVIDIA Grace™ de înaltă performanță prin interconectări NVLink-C2C ® chip-to-chip, inclusiv 20 de nuclee eficiente energetic construite cu arhitectura Arm. MediaTek, lider de piață în designul SoC-urilor bazate pe Arm, a fost implicat în proiectarea GB10, contribuind la eficiența energetică, performanța și conectivitatea de top din clasă.

Supercipul GB10 permite Project DIGITS să ofere performanțe puternice folosind doar o priză standard. Fiecare Project DIGITS dispune de 128GB de memorie unificată și constantă și de până la 4TB stocare NVMe. Cu acest supercomputer, dezvoltatorii pot rula modele lingvistice mari cu până la 200 de miliarde de parametri, sporind inovația AI. În plus, folosind rețeaua NVIDIA ConnectX ®, două supercalculatoare AI Project DIGITS pot fi conectate pentru a rula modele cu până la 405 miliarde de parametri.

──────
1. Scurt context
──────
Cardul accelerator AI de la "Project Digits" poate avea următoarele specificații uimitoare:
• 128 GB memorie video
• Aproximativ 512 GB/s lățime de bandă
• Aprox. 250 TFLOPS (fp16)
• Prețul de vânzare poate fi în jur de 3000 de dolari

Unii îl compară cu M4 Pro/Max de la Apple și GPU-urile mainstream de pe piață și menționează sloganul ușor de marketing "1 PFLOPS", dar puterea efectivă de calcul reală trebuie cântărită cu atenție.

─────────
2. Parametri de bază și semnificație
─────────
1. Puterea de calcul în virgulă mobilă (FLOPS)
• 250 TFLOPS (fp16) sună tentant, dar hardware-ul și software-ul lucrează împreună pentru a face cu adevărat diferența.
• "1 PFLOPS" se referă de obicei la vârful teoretic în modul de precizie scăzută sau poate fi și jocul obișnuit al "numerelor" în publicitate.
2. Memorie video/memorie unificată (128 GB)
• Pentru diverse modele AI, capacitatea memoriei video este un indicator cheie al "capacității de a adapta un model"; 128 GB sunt suficienți pentru a susține inferența și antrenamentul la scară medie.
• Când antrenezi un model de parametri 10~20B (sau mai mult), folosește tehnici de precizie de amestecare sau de reglare fină corespunzător pentru a profita la maximum de această memorie mare.
3. Lățimea de bandă a memoriei (~512 GB/s)
• Lățimea de bandă determină dacă nucleul de calcul poate "consuma datele".
•Deși nu la fel de bun ca nivelul centrului de date (1 TB/s~2 TB/s sau mai mult), este deja un nivel înalt pentru o platformă personală/stație de lucru.
• Dacă puterea de calcul și lățimea de bandă sunt echilibrate depinde, de asemenea, de optimizarea cache-ului/operatorului în arhitectură. S-ar putea să nu fie suficient să ne uităm la cifre, dar și la scorul real al curselor.
4. Preț și ecologie
• O singură carte de aproximativ 3.000$ (dacă este adevărată) este atractivă pentru mulți dezvoltatori sau echipe mici; Acesta este un potențial punct de concurență cu plăcile video de top de consum, precum RTX 4090.
• Totuși, dacă stiva software (drivere, compilatoare, cadre de deep learning) nu este perfectă, puterea de calcul ridicată poate totuși "să se întindă și să mănânce cenușă".

───────────
3. Impactul asupra sarcinilor de modele mari
───────────
1. Raționamentul cu modele mari
• 128 GB de memorie video sunt suficienți pentru a susține miliarde până la zeci de miliarde de modele de parametri "încărcate în memorie simultan" în modul de semiprecizie sau cuantificat, iar eficiența inferenței este probabil destul de ridicată.
• Dacă lățimea de bandă și cache-ul pot fi folosite bine, latența și debitul în timpul inferenței pot fi satisfăcătoare.
2. Instruire la scară mică și medie
• Pentru modele cu sute de milioane până la miliarde de parametri, este posibil să rulezi întregul proces de antrenare cu precizie mixtă pe această placă.
• Pentru modelele 30B~70B, de obicei sunt necesare tehnici de cuantificare sau paralelism multi-card, dar pentru echipe mici, aceasta rămâne totuși o metodă mai accesibilă decât soluțiile costisitoare pentru centre de date.
3. Blocaje de lățime de bandă și risipă de putere de calcul
• 250 TFLOPS necesită o sursă eficientă de date pentru a fi utilizate pe deplin.
• 512 GB/s nu este un "număr mic", dar dacă poate rula cu adevărat întreaga putere de calcul depinde de reglajul măsurat și la nivel de operator.

────────────
4. Comparație scurtă cu alte opțiuni
────────────
1. Seria Apple M4
• M4 Pro/Max este cunoscut și pentru lățimea sa de bandă mare și puterea de calcul ridicată; Totuși, în ceea ce privește compatibilitatea reală a cadrului și optimizarea deep learning-ului, nu este încă la nivelul NVIDIA.
• Dacă "Project Digits" nu are un ecosistem matur, ar putea urma și pe urmele GPU-urilor Apple. Indiferent cât de bun ar fi hardware-ul, este dificil să pătrunzi dacă adaptarea software nu este implementată.
2. Placă desktop NVIDIA (ca RTX 4090)
• RTX 4090 are o putere de calcul puternică și o lățime de bandă considerabilă, dar doar 24 GB vor fi "întinși" pe unele modele mari.
• Când sunt necesare mai multe plăci în paralel, costul și consumul de energie cresc brusc, iar este evident mai convenabil pentru "Project Digits" să ofere 128 GB pe o singură placă.
3. GPU pentru centre de date (A100/H100)
• Aceste GPU-uri de nivel frate mare costă zeci de mii sau chiar zeci de mii de dolari, iar performanța și ecologia sunt incontestabile, dar nu toată lumea își permite să le permită.
• Dacă "Project Digits" poate permite cu adevărat echipelor mici să aibă memorie video mare și putere de calcul ridicată cu un prag mai mic, ar putea obține o parte din prăjitură.

──────────
5. Provocări și preocupări potențiale
──────────
1. Ecologia software-ului și maturitatea driverelor
• CUDA este arma secretă a NVIDIA. Fără un ecosistem solid similar, este dificil ca "Project Digits" să fie popularizat la scară largă.
2. Rata efectivă de sosire a puterii de calcul/lățimii de bandă
• Operatorul efectiv de rulare are multe moduri de acces la memorie, iar dacă lipsește optimizarea, performanța maximă poate rămâne doar în materialele promoționale.
3. Consum de energie, disipare a căldurii și adaptare la mediu
• Memoria video mare și puterea mare de calcul înseamnă adesea un consum mare de energie. Dacă stațiile de lucru personale sau mici nu sunt pregătite pentru disiparea căldurii, se pot confrunta cu o "aragază mică".
4. Autenticitatea ofertei și prețurilor
• Să observe dacă vor exista mai multe informații oficiale sau recenzii reale de produse în viitor; Dacă este doar un produs conceptual, poate fi și "bucurie goală".

─────
6. Rezumat
─────
Dacă "Project Digits" poate oferi 128 GB de memorie video și 250 TFLOPS (fp16), plus un preț prietenos de aproximativ 3.000 de dolari, va fi foarte atractiv pentru dezvoltatorii care doresc să implementeze modele de dimensiuni medii local sau în laboratoare mici.
Totuși, parametrii hardware sunt doar o parte; Cheia succesului sau eșecului este driverul, compilatorul, cadrul de deep learning și alte suporturi software.
În prezent, acest proiect se află încă în stadiul de "știri de ultimă oră" și "publicitate", iar dacă poate zdruncina tiparul existent de piață depinde de procesul ulterior de producerizare și de scorul real de performanță.
 Proprietarul| Postat la 2025-2-21 14:16:38 |
HP Z2 Mini G1a

Deblochează fluxuri de lucru care înainte erau inaccesibile pe mini stații de lucru. Performanța transformativă este integrată într-un PC AI compact pentru a prelua proiecte complexe accelerate de AI ca niciodată până acum – proiectare 3D și randare intensive în grafică sau colaborare nativă cu LLM-uri.

https://www.hp.com/us-en/workstations/z2-mini-a.html
 Proprietarul| Postat pe 2025-3-19 10:29:06 |
NVIDIA DGX Spark, supercomputerul AI NVIDIA, acceptă precomenzi
https://www.itsvse.com/thread-10974-1-1.html
 Proprietarul| Postat la 2025-3-19 10:50:41 |
Supercomputerul AI ASUS Ascent GX10:https://www.asus.com/event/asus-ascent-gx10/
 Proprietarul| Postat la 2025-4-4 20:08:48 |
 Proprietarul| Postat la 2025-8-10 21:49:59 |
Jetson (1) Kitul de dezvoltator Jetson Orin Nano Super unboxed
https://www.itsvse.com/thread-11050-1-1.html
Disclaimer:
Tot software-ul, materialele de programare sau articolele publicate de Code Farmer Network sunt destinate exclusiv scopurilor de învățare și cercetare; Conținutul de mai sus nu va fi folosit în scopuri comerciale sau ilegale, altfel utilizatorii vor suporta toate consecințele. Informațiile de pe acest site provin de pe Internet, iar disputele privind drepturile de autor nu au legătură cu acest site. Trebuie să ștergi complet conținutul de mai sus de pe calculatorul tău în termen de 24 de ore de la descărcare. Dacă îți place programul, te rugăm să susții software-ul autentic, să cumperi înregistrarea și să primești servicii autentice mai bune. Dacă există vreo încălcare, vă rugăm să ne contactați prin e-mail.

Mail To:help@itsvse.com