Hoy, NVIDIA anunció el lanzamiento de Colossus, un superordenador de entrenamiento de IA construido en colaboración con xAI. Colossus, el clúster de entrenamiento de IA más potente del mundo, está compuesto por la asombrosa cantidad de 100.000 GPU NVIDIA Hopper.
Esta impresionante escala se ha logrado gracias a la plataforma de red NVIDIA Spectrum-X. Diseñada para fábricas de IA multiinquilino y de gran escala, esta plataforma permite el acceso directo a la memoria remota a través de Ethernet estándar, ofreciendo un rendimiento excepcional.
Colossus se utiliza principalmente para entrenar los modelos de lenguaje grande de la serie Grok de xAI, y también proporciona servicios de chatbot para los usuarios de X Premium. Aún más emocionante es el plan de xAI para duplicar el tamaño de Colossus, llegando a 200.000 GPU NVIDIA Hopper.
Gilad Shainer, vicepresidente senior de NVIDIA, declaró que la IA se ha convertido en una necesidad clave en todos los sectores, lo que aumenta las demandas de rendimiento, seguridad, escalabilidad y eficiencia de costos. La plataforma Spectrum-X ofrece a innovadores como xAI una capacidad de procesamiento, análisis y ejecución de datos más rápida, acelerando el desarrollo, la implementación y el tiempo de comercialización de las soluciones de IA.
Elon Musk también elogió el proyecto, calificando a Colossus como el sistema de entrenamiento más potente del mundo y elogiando el esfuerzo del equipo de xAI, NVIDIA y sus numerosos socios. Cabe destacar la eficiencia de la construcción de Colossus, que se completó en tan solo 122 días, mientras que sistemas de tamaño similar suelen tardar meses o incluso años. Desde la llegada del primer rack hasta el inicio del entrenamiento, pasaron solo 19 días.
Con el respaldo de este superordenador, la plataforma Spectrum-X ofrece un ancho de banda de hasta 400 Gbps, lo que aumenta significativamente la velocidad de transferencia de datos y reduce la latencia. Esta característica es crucial para las empresas que necesitan un procesamiento de datos rápido y análisis en tiempo real. Además, Spectrum-X está optimizado para aplicaciones de IA, lo que permite un enrutamiento y gestión de datos más inteligentes y mejora el rendimiento general del sistema.
El diseño de la arquitectura de Colossus está pensado para una escalabilidad eficiente, capaz de gestionar los enormes volúmenes de datos generados por las aplicaciones modernas. Además, Spectrum-X se centra en la sostenibilidad, buscando reducir el consumo de energía de los centros de datos mientras se mantiene un alto rendimiento, ayudando a las organizaciones a reducir su huella de carbono.
Puntos clave:
🌟 Colossus, un superordenador compuesto por 100.000 GPU NVIDIA Hopper, está entrenando modelos de lenguaje grande y planea expandirse a 200.000 GPU.
⚡ La plataforma de red Spectrum-X ofrece un ancho de banda de hasta 400 Gbps, optimizando la transferencia de datos y la capacidad de análisis en tiempo real.
🌱 La plataforma se centra en la sostenibilidad, con el objetivo de reducir el consumo de energía de los centros de datos mientras mantiene un alto rendimiento.