Este artigo é um artigo espelhado de tradução automática, por favor clique aqui para ir para o artigo original.

Vista: 1741|Resposta: 5

Supercomputador pessoal de IA do Projeto NVIDIA DIGITS

[Copiar link]
Postado em 2025-2-13 09:43:00 | | | |
O Project DIGITS é alimentado pelo NVIDIA GB10 Grace Blackwell Superchip, oferecendo desempenho exascale de IA em ponto flutuante em um formato compacto e eficiente em energia. Com uma pilha de software de IA NVIDIA pré-instalada e 128GB de memória, os desenvolvedores podem prototipar localmente, ajustar e raciocinar grandes modelos de IA com até 200 bilhões de parâmetros e implantá-los de forma fluida em data centers ou na nuvem.



Site oficial:O login do hiperlink está visível.
Mais introdução:O login do hiperlink está visível.

O superchip GB10 entrega exabytes de desempenho eficiente em IA

O GB10 Superchip é um sistema no chip (SoC) baseado na arquitetura NVIDIA Grace Blackwell, entregando até 100 trilhões de desempenho de IA com precisão FP4.

Equipado com GPUs NVIDIA Blackwell, o GB10 está equipado com os núcleos CUDA® de última geração e núcleos Tensor de quinta geração, conectados a CPUs NVIDIA Grace™ de alto desempenho por meio de interconexões chip-to-chip NVLink-C2C ®, incluindo 20 núcleos energeticamente eficientes construídos com arquitetura Arm. A MediaTek, líder de mercado em design de SoC baseados em Arm, esteve envolvida no projeto do GB10, contribuindo para sua eficiência energética, desempenho e conectividade de excelência.

O superchip GB10 permite que o Project DIGITS entregue desempenho potente usando apenas uma tomada padrão. Cada Project DIGITS possui 128GB de memória unificada e consistente e até 4TB de armazenamento NVMe. Com este supercomputador, os desenvolvedores podem rodar grandes modelos de linguagem com até 200 bilhões de parâmetros, aprimorando a inovação em IA. Além disso, usando a rede NVIDIA ConnectX ®, dois supercomputadores de IA do Project DIGITS podem ser conectados para rodar modelos com até 405 bilhões de parâmetros.

──────
1. Breve contexto
──────
O cartão acelerador de IA do "Project Digits" pode ter as seguintes especificações incríveis:
• 128 GB de memória de vídeo
• Aproximadamente 512 GB/s de largura de banda
• Aprox. 250 TFLOPS (fp16)
• O preço de venda pode ser em torno de $3000

Algumas pessoas comparam com o M4 Pro/Max da Apple e GPUs populares do mercado, e mencionam o slogan levemente promocional "1 PFLOPS", mas o poder de computação efetivo real precisa ser cuidadosamente avaliado.

─────────
2. Parâmetros centrais e significado
─────────
1. Poder de Computação em Ponto Flutuante (FLOPS)
• 250 TFLOPS (fp16) parece tentador, mas hardware e software trabalham juntos para realmente fazer a diferença.
• "1 PFLOPS" geralmente se refere ao pico teórico no modo de menor precisão, ou pode também ser o habitual "jogo de números" na publicidade.
2. Memória de vídeo/memória unificada (128 GB)
• Para vários modelos de IA, a capacidade de memória de vídeo é um indicador-chave de "capacidade de ajustar um modelo"; 128 GB são suficientes para suportar inferência e treinamento em média escala.
• Ao treinar um modelo de parâmetros 10~20B (ou mais), use técnicas de precisão de mistura ou ajuste fino adequadamente para aproveitar ao máximo essa grande memória.
3. Largura de banda de memória (~512 GB/s)
• A largura de banda determina se o núcleo de computação pode "consumir os dados".
•Embora não seja tão bom quanto o nível de data center (1 TB/s~2 TB/s ou mais), já é um nível alto para uma plataforma pessoal/estação de trabalho.
• Se o poder de computação e a largura de banda são balanceados também depende da otimização do cache/operador na arquitetura. Pode não ser suficiente olhar para os números, mas também para o placar real em corrida.
4. Preço e ecologia
• Uma única carta de cerca de $3.000 (se for verdade) é atraente para muitos desenvolvedores ou pequenas equipes; Esse é um possível ponto de concorrência com GPUs de alto desempenho de consumo como a RTX 4090.
• No entanto, se a pilha de software (drivers, compiladores, frameworks de deep learning) não for perfeita, o alto poder computacional ainda pode "cair e comer cinzas".

───────────
3. Impacto em tarefas de grandes modelos
───────────
1. Raciocínio de grandes modelos
• 128 GB de memória de vídeo são suficientes para suportar bilhões a dezenas de bilhões de modelos de parâmetros "carregados na memória de uma vez" em modo de meia-precisão ou quantizado, e a eficiência de inferência provavelmente será bastante alta.
• Se largura de banda e cache podem ser bem usadas, latência e throughput durante a inferência podem ser satisfatórias.
2. Treinamento em pequena e média escala
• Para modelos com centenas de milhões a bilhões de parâmetros, é possível executar todo o processo com precisão mista nesta placa.
• Para modelos 30B~70B, geralmente são necessárias técnicas de quantização ou paralelismo multi-placa, mas para equipes pequenas, ainda é um método mais acessível do que soluções caras de data center.
3. Gargalos de largura de banda e desperdício de poder computacional
• 250 TFLOPS requerem fornecimento eficiente de dados para serem plenamente utilizados.
• 512 GB/s não é um "número pequeno", mas se realmente consegue operar todo o poder de processamento depende da sintonia medida e em nível de operador.

────────────
4. Breve comparação com outras opções
────────────
1. Série Apple M4
• O M4 Pro/Max também é conhecido por sua alta largura de banda e alto poder de computação; No entanto, em termos de compatibilidade real de framework e otimização do deep learning, ele ainda não está no mesmo nível da NVIDIA.
• Se "Project Digits" não tiver um ecossistema maduro, ele também pode seguir os passos das GPUs da Apple. Não importa o quão bom seja o hardware, é difícil se destacar se a adaptação de software não estiver implementada.
2. Placa desktop NVIDIA (como RTX 4090)
• A RTX 4090 possui grande poder de computação e considerável largura de banda, mas apenas 24 GB serão "esticados" em alguns modelos grandes.
• Quando são necessárias múltiplas placas em paralelo, o custo e o consumo de energia aumentam drasticamente, e é obviamente mais conveniente para os "Dígitos de Projeto" fornecer 128 GB em um único cartão.
3. GPU de Data Center (A100/H100)
• Essas GPUs de nível irmão maior custam dezenas de milhares ou até dezenas de milhares de dólares, e o desempenho e a ecologia são inquestionáveis, mas nem todo mundo pode pagar por elas.
• Se os "Project Digits" realmente permitirem que equipes pequenas tenham grande memória de vídeo e alto poder de computação com um limiar mais baixo, talvez consigam uma fatia do bolo.

──────────
5. Desafios e preocupações potenciais
──────────
1. Ecologia do software e maturidade dos drivers
• CUDA é a arma secreta da NVIDIA. Sem um ecossistema sólido semelhante, é difícil que o "Project Digits" seja popularizado em grande escala.
2. A taxa real de chegada do poder de computação/largura de banda
• O operador em execução possui muitos modos de acesso à memória e, se houver falta de otimização, o desempenho máximo pode permanecer apenas nos materiais promocionais.
3. Consumo de energia, dissipação de calor e adaptação ambiental
• Grande memória de vídeo e alto poder de computação frequentemente significam alto consumo de energia. Se estações de trabalho pessoais ou pequenas não estiverem prontas para dissipação de calor, podem enfrentar um "fogão pequeno".
4. Autenticidade da oferta e precificação
• Observar se haverá mais informações oficiais ou avaliações reais de produtos no futuro; Se for apenas um produto conceitual, também pode ser "alegria vazia".

─────
6. Resumo
─────
Se o "Project Digits" puder oferecer 128 GB de memória de vídeo e 250 TFLOPS (fp16), além de um preço amigável de cerca de $3.000, será muito atraente para desenvolvedores que queiram implantar modelos de médio porte localmente ou em laboratórios pequenos.
No entanto, os parâmetros de hardware são apenas um lado, afinal; A chave para o sucesso ou fracasso é o driver, compilador, framework de deep learning e outros suportes de software.
Atualmente, este projeto ainda está na fase de "notícias de última hora" e "publicidade", e se conseguirá abalar o padrão de mercado existente depende do processo subsequente de comercialização e da pontuação real de desempenho.
 Senhorio| Postado em 2025-2-21 14:16:38 |
HP Z2 Mini G1a

Desbloqueie fluxos de trabalho que antes eram inacessíveis em mini estações de trabalho. O desempenho transformativo está integrado a um PC compacto com IA para assumir projetos complexos acelerados por IA como nunca antes – projetar simultaneamente 3D e renderizar projetos que exigem muitos gráficos ou colaborar nativamente com LLMs.

https://www.hp.com/us-en/workstations/z2-mini-a.html
 Senhorio| Publicado em 2025-3-19 10:29:06 |
NVIDIA DGX Spark, o supercomputador de IA da NVIDIA, está aceitando pré-vendas
https://www.itsvse.com/thread-10974-1-1.html
 Senhorio| Postado em 19-03-2025 às 10:50:41 |
Supercomputador ASUS Ascent GX10 IA:https://www.asus.com/event/asus-ascent-gx10/
 Senhorio| Postado em 2025-4-4 20:08:48 |
 Senhorio| Postado em 2025-8-10 21:49:59 |
Jetson (1) Kit de Desenvolvimento Super Jetson Orin Nano desfeito
https://www.itsvse.com/thread-11050-1-1.html
Disclaimer:
Todo software, material de programação ou artigos publicados pela Code Farmer Network são apenas para fins de aprendizado e pesquisa; O conteúdo acima não deve ser usado para fins comerciais ou ilegais, caso contrário, os usuários terão todas as consequências. As informações deste site vêm da Internet, e disputas de direitos autorais não têm nada a ver com este site. Você deve deletar completamente o conteúdo acima do seu computador em até 24 horas após o download. Se você gosta do programa, por favor, apoie um software genuíno, compre o registro e obtenha serviços genuínos melhores. Se houver qualquer infração, por favor, entre em contato conosco por e-mail.

Mail To:help@itsvse.com