埃隆·马斯克近日在社交媒体上分享了一段视频,展示了特斯拉正在奥斯汀总部建设的Cortex AI超级计算机群的内部构造。这个被重新命名的超级计算机群是特斯拉“Giga Texas”工厂的一部分,预计将在启动时需要130兆瓦的冷却和电力,到2026年这一数字将增长至500兆瓦。

Cortex超级计算机群的建设规模令人震撼,预计将包含70,000个AI服务器。马斯克的视频展示了正在组装的大量服务器机架,每行包含16个计算机架,每个机架有8个服务器。视频中可见大约16-20行机架,估算大约有2,000个GPU服务器,这还不到预计完全规模的3%。

QQ20240829-135706.png

在特斯拉7月的财报电话会议中,马斯克透露Cortex超级计算机群将包含“50,000个Nvidia H100显卡,外加20,000个我们自己的硬件”。这比他之前提到的数量有所减少,之前他曾估计Cortex将拥有50,000个特斯拉Dojo AI硬件单元。特斯拉自己的硬件预计将在稍后阶段上线,而Cortex在启动时将完全依赖Nvidia的硬件。

Cortex超级计算机群的建设目的是为了“解决现实世界的AI问题”。在特斯拉的2024年第二季度财报电话会议中,这包括训练特斯拉的全自动驾驶(FSD)系统,这将为消费者特斯拉汽车和即将推出的“Cybertaxi”产品提供动力,以及训练Optimus机器人的AI,Optimus是一款预计在2025年开始有限生产的自主人形机器人,将被用于特斯拉的制造流程。

Cortex超级计算机群的散热系统同样引人注目。马斯克在6月份展示了正在建设中的巨大风扇系统,该系统将为整个超级计算机群提供冷却。这个风扇堆栈为Supermicro提供的液体冷却解决方案提供冷却,该解决方案设计用于最终处理500兆瓦的冷却和电力。

Cortex超级计算机群加入了马斯克正在开发的超级计算机群行列。目前,马斯克数据中心中第一个投入运营的是孟菲斯超级计算机群,由xAI拥有,由100,000个Nvidia H100显卡驱动。孟菲斯的所有100,000个服务器都通过单一的RDMA(远程直接内存访问)网络连接,并同样得到Supermicro的帮助进行冷却。