Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 1741|Répondre: 5

Superordinateur personnel d’IA du projet NVIDIA DIGITS

[Copié le lien]
Publié le 13-02-2025 à 09:43:00 | | | |
Project DIGITS est propulsé par la superpuce NVIDIA GB10 Grace Blackwell, offrant des performances d’IA en virgule flottante exascale dans un format compact et économe en énergie. Avec une pile logicielle NVIDIA AI préinstallée et 128 Go de mémoire, les développeurs peuvent localement prototyper, peaufiner et raisonner de grands modèles d’IA avec jusqu’à 200 milliards de paramètres et les déployer sans effort dans les centres de données ou le cloud.



Site officiel :La connexion hyperlientérée est visible.
Plus d’introduction :La connexion hyperlientérée est visible.

La superpuce GB10 offre des exaoctets de performances IA efficaces

La Superchip GB10 est un système sur puce (SoC) basé sur l’architecture NVIDIA Grace Blackwell, offrant jusqu’à 100 000 milliards de performances IA avec une précision FP4.

Propulsé par des GPU NVIDIA Blackwell, le GB10 est équipé des cœurs CUDA® de dernière génération et des cœurs Tensor de cinquième génération, connectés à des processeurs NVIDIA Grace™ haute performance via des interconnexions puce NVLink-C2C ®, incluant 20 cœurs économes en énergie construits avec l’architecture Arm. MediaTek, leader du marché dans la conception de SoC basés sur Arm, a participé à la conception du GB10, contribuant à son efficacité énergétique, ses performances et sa connectivité de premier ordre.

La superpuce GB10 permet au Project DIGITS d’offrir de puissantes performances uniquement avec une prise électrique standard. Chaque Project DIGITS dispose de 128 Go de mémoire unifiée et cohérente et jusqu’à 4 To de stockage NVMe. Avec ce superordinateur, les développeurs peuvent exécuter de grands modèles de langage avec jusqu’à 200 milliards de paramètres, favorisant ainsi l’innovation en IA. De plus, grâce au réseau NVIDIA ConnectX ®, deux superordinateurs IA du projet DIGITS peuvent être connectés pour exécuter des modèles allant jusqu’à 405 milliards de paramètres.

──────
1. Brève histoire
──────
La carte accélératrice IA de « Project Digits » peut avoir les spécifications étonnantes suivantes :
• 128 Go de mémoire vidéo
• Environ 512 Go/s de bande passante
• Environ 250 TFLOPS (fp16)
• Le prix de vente peut être d’environ 3000 $

Certaines personnes le comparent au M4 Pro/Max d’Apple et aux GPU grand public du marché, et mentionnent le slogan légèrement marketing « 1 PFLOPS », mais la puissance de calcul effective réelle doit être soigneusement évaluée.

─────────
2. Paramètres fondamentaux et signification
─────────
1. Puissance de calcul en virgule flottante (FLOPS)
• 250 TFLOPS (fp16) semble tentant, mais le matériel et le logiciel fonctionnent ensemble pour vraiment faire la différence.
• « 1 PFLOPS » fait généralement référence au pic théorique en mode de précision inférieure, ou cela peut aussi être le « jeu des chiffres » habituel dans la publicité.
2. Mémoire vidéo/mémoire unifiée (128 Go)
• Pour divers modèles d’IA, la capacité de mémoire vidéo est un indicateur clé de « capacité à adapter un modèle » ; 128 Go suffisent pour supporter l’inférence et l’entraînement à moyenne échelle.
• Lors de l’entraînement d’un modèle de paramètres 10~20B (ou plus), utilisez des techniques de précision de mélange ou d’ajustement fin de manière appropriée pour tirer le meilleur parti de cette grande mémoire.
3. Bande passante mémoire (~512 Go/s)
• La bande passante détermine si le cœur de calcul peut « consommer les données ».
•Bien que moins performant que le niveau centre de données (1 To/s~2 To/s ou plus), il est déjà de haut niveau pour une plateforme personnelle/poste de travail.
• L’équilibrage de la puissance de calcul et de la bande passante dépend également de l’optimisation du cache/opérateur dans l’architecture. Il ne suffit peut-être pas de regarder les chiffres, mais aussi de regarder le score réel en cours.
4. Prix et écologie
• Une seule carte d’environ 3 000 $ (si c’est vrai) est attrayante pour de nombreux développeurs ou petites équipes ; C’est un point de concurrence potentiel avec les GPU haut de gamme grand public comme la RTX 4090.
• Cependant, si la pile logicielle (pilotes, compilateurs, frameworks d’apprentissage profond) n’est pas parfaite, une puissance de calcul élevée peut encore « s’effondrer et manger les cendres ».

───────────
3. Impact sur les grandes tâches de modèles
───────────
1. Raisonnement de grands modèles
• 128 Go de mémoire vidéo suffisent à supporter des milliards à des dizaines de milliards de modèles de paramètres « chargés en mémoire en même temps » en demi-précision ou en mode quantifié, et l’efficacité d’inférence est probablement assez élevée.
• Si la bande passante et le cache peuvent être bien utilisés, la latence et le débit lors de l’inférence peuvent être satisfaisants.
2. Formation à petite et moyenne échelle
• Pour des modèles avec des centaines de millions à des milliards de paramètres, il est possible d’exécuter l’entraînement complet du processus avec une précision mitigée sur cette carte.
• Pour les modèles 30B~70B, des techniques de quantification ou du parallélisme multi-carte sont généralement nécessaires, mais pour les petites équipes, cela reste une méthode plus abordable que les solutions coûteuses de centres de données.
3. Goulots d’étranglement de bande passante et gaspillage de puissance de calcul
• 250 TFLOPS nécessitent une alimentation de données efficace pour être pleinement exploitées.
• 512 Go/s n’est pas un « petit nombre », mais la capacité réelle de faire fonctionner toute la puissance de calcul dépend de l’accord mesuré et au niveau opérateur.

────────────
4. Brève comparaison avec d’autres options
────────────
1. Série Apple M4
• Le M4 Pro/Max est également reconnu pour sa grande bande passante et sa grande puissance de calcul ; Cependant, en termes de compatibilité réelle des frameworks et d’optimisation du deep learning, il n’est pas encore au même niveau que NVIDIA.
• Si « Project Digits » ne possède pas d’écosystème mature, il peut également suivre les traces des GPU d’Apple. Peu importe la qualité du matériel, il est difficile de percer si l’adaptation logicielle n’est pas en place.
2. Carte de bureau NVIDIA (comme la RTX 4090)
• La RTX 4090 possède une grande puissance de calcul et une bande passante considérable, mais seulement 24 Go seront « étirés » sur certains modèles de grande taille.
• Lorsque plusieurs cartes sont nécessaires en parallèle, le coût et la consommation d’énergie augmentent considérablement, et il est évidemment plus pratique pour les « Chiffres de projet » de fournir 128 Go sur une seule carte.
3. GPU de centre de données (A100/H100)
• Ces GPU de niveau grand frère coûtent des dizaines de milliers, voire des dizaines de milliers de dollars, et leurs performances et leur écologie sont incontestables, mais tout le monde ne peut pas se les permettre.
• Si les « chiffres de projet » permettent vraiment aux petites équipes d’avoir une grande mémoire vidéo et une grande puissance de calcul avec un seuil plus bas, elle pourrait s’emparer d’une part du gâteau.

──────────
5. Défis et préoccupations potentiels
──────────
1. Écologie des logiciels et maturité des pilotes
• CUDA est l’arme secrète de NVIDIA. Sans un écosystème solide similaire, il est difficile pour « Project Digits » d’être popularisé à grande échelle.
2. Le taux réel d’arrivée de la puissance de calcul/bande passante
• L’opérateur en cours d’exécution dispose de nombreux modes d’accès mémoire, et en cas d’optimisation manquante, la performance maximale peut ne rester que dans les supports promotionnels.
3. Consommation d’énergie, dissipation de chaleur et adaptation environnementale
• Grande mémoire vidéo et puissance de calcul élevée signifient souvent une consommation d’énergie élevée. Si les postes de travail personnels ou petits ne sont pas prêts à dissiper la chaleur, ils peuvent être confrontés à un « petit poêle ».
4. Authenticité de l’offre et des prix
• Observer s’il y a plus d’informations officielles ou de véritables critiques de produits à l’avenir ; Si ce n’est qu’un produit conceptuel, cela peut aussi être une « joie vide ».

─────
6. Résumé
─────
Si « Project Digits » peut offrir 128 Go de mémoire vidéo et 250 TFLOPS (fp16), ainsi qu’un prix abordable d’environ 3 000 $, il sera très attractif pour les développeurs souhaitant déployer des modèles de taille moyenne localement ou dans de petits laboratoires.
Cependant, les paramètres matériels ne sont qu’un côté ; La clé du succès ou de l’échec réside dans le pilote, le compilateur, le cadre d’apprentissage profond et d’autres logiciels de support.
À l’heure actuelle, ce projet est encore au stade de « dernière minute » et de « publicité », et sa capacité à ébranler le schéma du marché actuel dépend du processus de productisation qui suivra et du score de performance réel.
 Propriétaire| Publié le 2025-2-21 14:16:38 |
HP Z2 Mini G1a

Déverrouiller des flux de travail auparavant inaccessibles sur des mini-postes de travail. La performance transformative est intégrée dans un PC IA compact pour relever des projets complexes accélérés par l’IA comme jamais auparavant – simultanément concevoir et rendre des projets graphiques intenses ou collaborer nativement avec des LLM.

https://www.hp.com/us-en/workstations/z2-mini-a.html
 Propriétaire| Publié le 19-03-2025 à 10:29:06 |
NVIDIA DGX Spark, le superordinateur IA de NVIDIA, accepte les précommandes
https://www.itsvse.com/thread-10974-1-1.html
 Propriétaire| Publié le 19-03-2025 à 10:50:41 |
Superordinateur IA ASUS Ascent GX10 :https://www.asus.com/event/asus-ascent-gx10/
 Propriétaire| Publié le 4-04-2025 à 20:08:48 |
 Propriétaire| Publié le 10-08-2025 à 21:49:59 |
Jetson (1) Kit de développement Jetson Orin Nano Super déboîté
https://www.itsvse.com/thread-11050-1-1.html
Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com