Elon Musk a récemment partagé une vidéo sur les réseaux sociaux, montrant l'intérieur du cluster de superordinateurs Cortex AI en cours de construction au siège d'Austin de Tesla. Ce cluster de superordinateurs, rebaptisé, fait partie de l'usine « Giga Texas » de Tesla et devrait nécessiter 130 mégawatts de refroidissement et d'électricité au démarrage, un chiffre qui devrait atteindre 500 mégawatts d'ici 2026.

L'ampleur de la construction du cluster de superordinateurs Cortex est impressionnante. Il devrait comprendre 70 000 serveurs IA. La vidéo de Musk montre de nombreux racks de serveurs en cours d'assemblage, chaque rangée contenant 16 racks informatiques, chaque rack comprenant 8 serveurs. La vidéo montre environ 16 à 20 rangées de racks, ce qui représente environ 2 000 serveurs GPU, soit moins de 3 % de la taille prévue.

QQ20240829-135706.png

Lors de la conférence téléphonique sur les résultats du deuxième trimestre 2024 de Tesla, Musk a révélé que le cluster de superordinateurs Cortex comprendrait « 50 000 cartes graphiques Nvidia H100, plus 20 000 de notre propre matériel ». Ceci est inférieur à ce qu'il avait mentionné précédemment, estimant auparavant que Cortex posséderait 50 000 unités matérielles Tesla Dojo AI. Le matériel Tesla devrait être mis en ligne ultérieurement, et Cortex dépendra entièrement du matériel Nvidia au démarrage.

Le cluster de superordinateurs Cortex a pour objectif de « résoudre des problèmes d'IA du monde réel ». Lors de la conférence téléphonique sur les résultats du deuxième trimestre 2024 de Tesla, cela inclut l'entraînement du système de conduite entièrement autonome (FSD) de Tesla, qui alimentera les voitures Tesla grand public et le prochain produit « Cybertaxi », ainsi que l'entraînement de l'IA du robot Optimus, un robot humanoïde autonome dont la production limitée est prévue pour 2025 et qui sera utilisé dans les processus de fabrication de Tesla.

Le système de refroidissement du cluster de superordinateurs Cortex est également remarquable. En juin, Musk a présenté l'énorme système de ventilation en cours de construction qui refroidira l'ensemble du cluster de superordinateurs. Cette pile de ventilateurs refroidit la solution de refroidissement liquide fournie par Supermicro, conçue pour gérer finalement 500 mégawatts de refroidissement et d'électricité.

Le cluster de superordinateurs Cortex s'ajoute à la liste des clusters de superordinateurs que Musk est en train de développer. Actuellement, le premier cluster mis en service dans les centres de données de Musk est le cluster de superordinateurs Memphis, appartenant à xAI, et alimenté par 100 000 cartes graphiques Nvidia H100. Les 100 000 serveurs de Memphis sont tous connectés via un seul réseau RDMA (Remote Direct Memory Access) et sont également refroidis avec l'aide de Supermicro.