Teslas Cortex-KI-Supercomputer-Cluster debütiert mit 50.000 Nvidia H100-Grafikkarten

Elon Musk präsentierte kürzlich in den sozialen Medien ein Video, das den Innenaufbau des in der Zentrale in Austin im Bau befindlichen Cortex AI-Supercomputer-Clusters von Tesla zeigt. Dieser umbenannte Supercomputer-Cluster ist Teil des Werks „Giga Texas“ von Tesla und wird voraussichtlich beim Start 130 Megawatt an Kühlung und Strom benötigen, bis 2026 wird diese Zahl auf 500 Megawatt ansteigen.

Das Ausmaß des Cortex-Supercomputer-Clusters ist beeindruckend. Es wird erwartet, dass er 70.000 KI-Server enthalten wird. Musks Video zeigt zahlreiche Serverracks im Aufbau, wobei jede Reihe 16 Computergestelle enthält, jedes Gestell 8 Server. Im Video sind etwa 16-20 Reihen von Gestellen zu sehen, was auf etwa 2.000 GPU-Server geschätzt wird – das sind weniger als 3 % des geplanten Gesamtumfangs.

In der Telefonkonferenz zum Tesla-Geschäftsbericht im Juli gab Musk bekannt, dass der Cortex-Supercomputer-Cluster „50.000 Nvidia H100-Grafikkarten plus 20.000 unserer eigenen Hardware“ enthalten wird. Dies ist weniger als er zuvor angegeben hatte; er hatte zuvor geschätzt, dass Cortex 50.000 Tesla Dojo KI-Hardwareeinheiten haben würde. Die eigene Hardware von Tesla wird voraussichtlich später eingeführt werden, wobei Cortex beim Start vollständig auf die Hardware von Nvidia angewiesen sein wird.

Der Cortex-Supercomputer-Cluster dient dem Zweck, „reale KI-Probleme zu lösen“. In der Telefonkonferenz zum Tesla-Geschäftsbericht des zweiten Quartals 2024 umfasste dies das Training des vollautonomen Fahrsystems (FSD) von Tesla, das sowohl für die Tesla-Fahrzeuge für Verbraucher als auch für das kommende „Cybertaxi“-Produkt die Grundlage bilden wird, sowie das Training der KI des Optimus-Roboters, eines autonomen humanoiden Roboters, dessen begrenzte Produktion für 2025 geplant ist und der in den Herstellungsprozessen von Tesla eingesetzt werden soll.

Das Kühlsystem des Cortex-Supercomputer-Clusters ist ebenfalls bemerkenswert. Musk zeigte im Juni das im Bau befindliche riesige Lüftersystem, das den gesamten Supercomputer-Cluster kühlen wird. Dieser Lüfterstapel kühlt die von Supermicro bereitgestellte Flüssigkeitskühlungslösung, die für die letztendliche Verarbeitung von 500 Megawatt Kühlung und Strom ausgelegt ist.

Der Cortex-Supercomputer-Cluster reiht sich in die von Musk entwickelten Supercomputer-Cluster ein. Derzeit ist der erste in Betrieb genommene Supercomputer-Cluster in Musks Rechenzentrum der Memphis-Supercomputer-Cluster, der xAI gehört und von 100.000 Nvidia H100-Grafikkarten angetrieben wird. Alle 100.000 Server von Memphis sind über ein einziges RDMA-Netzwerk (Remote Direct Memory Access) verbunden und werden ebenfalls von Supermicro bei der Kühlung unterstützt.

KI-Nachrichten und -Informationen

Teslas Cortex-KI-Supercomputer-Cluster debütiert mit 50.000 Nvidia H100-Grafikkarten

AIbase基地