Elon Musk recientemente compartió un video en las redes sociales que muestra la construcción interna del clúster de supercomputadoras Cortex AI de Tesla en su sede de Austin. Este clúster de supercomputadoras, recientemente renombrado, forma parte de la fábrica "Giga Texas" de Tesla y se espera que requiera 130 megavatios de refrigeración y energía en su lanzamiento, cifra que aumentará a 500 megavatios para 2026.
La escala de construcción del clúster de supercomputadoras Cortex es impresionante, con una previsión de 70.000 servidores de IA. El video de Musk muestra una gran cantidad de racks de servidores en proceso de ensamblaje, con 16 racks de computadores por fila y 8 servidores por rack. El video muestra aproximadamente 16-20 filas de racks, lo que estima unos 2.000 servidores GPU, menos del 3% de la escala total prevista.
En la conferencia telefónica de resultados del segundo trimestre de 2024 de Tesla, Musk reveló que el clúster de supercomputadoras Cortex incluirá "50.000 tarjetas gráficas Nvidia H100, además de 20.000 de nuestro propio hardware". Esto representa una reducción con respecto a las cifras mencionadas anteriormente, ya que antes había estimado que Cortex tendría 50.000 unidades de hardware de IA de Tesla Dojo. Se espera que el hardware propio de Tesla se implemente en una etapa posterior, mientras que Cortex dependerá completamente del hardware de Nvidia en su lanzamiento.
El objetivo de la construcción del clúster de supercomputadoras Cortex es "resolver problemas de IA del mundo real". En la conferencia telefónica de resultados del segundo trimestre de 2024 de Tesla, esto incluye entrenar el sistema de conducción autónoma completa (FSD) de Tesla, que impulsará los vehículos Tesla para consumidores y el próximo producto "Cybertaxi", así como entrenar la IA del robot Optimus, un robot humanoide autónomo que se espera que entre en producción limitada en 2025 y se utilizará en los procesos de fabricación de Tesla.
El sistema de refrigeración del clúster de supercomputadoras Cortex también es notable. Musk mostró en junio el enorme sistema de ventiladores en construcción que proporcionará refrigeración a todo el clúster. Esta pila de ventiladores proporciona refrigeración a la solución de refrigeración líquida proporcionada por Supermicro, diseñada para manejar finalmente 500 megavatios de refrigeración y energía.
El clúster de supercomputadoras Cortex se une a la lista de clústeres de supercomputadoras que Musk está desarrollando. Actualmente, el primero en entrar en funcionamiento en los centros de datos de Musk es el clúster de supercomputadoras Memphis, propiedad de xAI, impulsado por 100.000 tarjetas gráficas Nvidia H100. Los 100.000 servidores de Memphis están conectados a través de una única red RDMA (Acceso Directo a Memoria Remota) y también cuentan con la ayuda de Supermicro para la refrigeración.