Hoje, a NVIDIA anunciou o lançamento oficial do Colossus, um supercomputador em colaboração com a xAI. Trata-se do Colossus, o cluster de treinamento de IA mais poderoso do mundo, composto por impressionantes 100.000 GPUs NVIDIA Hopper.

image.png

Essa imensa capacidade computacional é possível graças à plataforma de rede NVIDIA Spectrum-X. Projetada para fábricas de IA multi-inquilino e em larga escala, ela utiliza Ethernet padrão para acesso direto à memória remota (RDMA), oferecendo desempenho excepcional.

O Colossus será usado principalmente para treinar os modelos de linguagem grandes da série Grok da xAI, além de fornecer serviços de chatbot para usuários do X Premium. Ainda mais empolgante: a xAI planeja dobrar o tamanho do Colossus, chegando a 200.000 GPUs NVIDIA Hopper.

Gilad Shainer, vice-presidente sênior da NVIDIA, afirmou que a IA se tornou uma necessidade crucial em diversos setores, aumentando a demanda por desempenho, segurança, escalabilidade e eficiência de custo. A plataforma Spectrum-X oferece aos inovadores, como a xAI, capacidade de processamento, análise e execução de dados mais rápida, acelerando o desenvolvimento, a implantação e o lançamento de soluções de IA.

Elon Musk também elogiou o projeto, chamando o Colossus de sistema de treinamento mais poderoso do mundo e reconhecendo o trabalho da equipe da xAI, da NVIDIA e de seus numerosos parceiros. Vale destacar a eficiência na construção do Colossus: apenas 122 dias foram necessários para sua conclusão, enquanto sistemas de escala semelhante podem levar meses ou até anos. Do primeiro rack à inicialização do treinamento, o processo levou apenas 19 dias.

Com o suporte deste supercomputador, a plataforma Spectrum-X oferece largura de banda de até 400 Gbps, aumentando significativamente a velocidade de transferência de dados e reduzindo a latência. Essa característica é crucial para empresas que precisam de processamento de dados rápido e análise em tempo real. Além disso, o Spectrum-X foi otimizado para aplicativos de IA, permitindo roteamento e gerenciamento de dados mais inteligentes, melhorando o desempenho geral do sistema.

A arquitetura do Colossus foi projetada para escalabilidade eficiente, lidando com a enorme quantidade de dados gerados por aplicativos modernos. O Spectrum-X também se concentra na sustentabilidade, buscando reduzir o consumo de energia dos data centers sem comprometer o alto desempenho, ajudando as organizações a diminuírem sua pegada de carbono.

Destaques:

🌟 O supercomputador Colossus é composto por 100.000 GPUs NVIDIA Hopper, treinando modelos de linguagem grandes e com planos de expansão para 200.000 GPUs.

⚡ A plataforma de rede Spectrum-X oferece largura de banda de até 400 Gbps, otimizando a transferência de dados e a capacidade de análise em tempo real.

🌱 A plataforma prioriza a sustentabilidade, buscando reduzir o consumo de energia dos data centers, mantendo o alto desempenho.