Heute gab NVIDIA die Inbetriebnahme des Colossus-Supercomputer-Clusters in Zusammenarbeit mit xAI bekannt – dem weltweit leistungsstärksten KI-Trainingscluster. Colossus besteht aus satten 100.000 NVIDIA Hopper GPUs.
Diese enorme Größe wird durch die NVIDIA Spectrum-X Ethernet-Netzwerkplattform ermöglicht. Diese Plattform wurde speziell für Multi-Tenant- und extrem große KI-Fabriken entwickelt und bietet über Standard-Ethernet direkten Zugriff auf den entfernten Speicher (RDMA) für herausragende Leistung.
Colossus dient hauptsächlich zum Trainieren der großen Sprachmodelle der Grok-Serie von xAI und bietet außerdem Chatbot-Dienste für X Premium-Nutzer. Noch spannender ist die geplante Verdoppelung der Größe von Colossus auf 200.000 NVIDIA Hopper GPUs.
Gilad Shainer, Senior Vice President bei NVIDIA, erklärte, dass KI zu einer zentralen Anforderung in allen Branchen geworden ist und daher die Anforderungen an Leistung, Sicherheit, Skalierbarkeit und Wirtschaftlichkeit ständig steigen. Die Spectrum-X-Plattform bietet Innovatoren wie xAI schnellere Datenverarbeitung, -analyse und -ausführung, wodurch die Entwicklung, Bereitstellung und Markteinführung von KI-Lösungen beschleunigt werden.
Elon Musk äußerte sich ebenfalls anerkennend und bezeichnete Colossus als das weltweit leistungsstärkste Trainingssystem. Er lobte die Arbeit des xAI-Teams, von NVIDIA und ihrer zahlreichen Partner. Bemerkenswert ist die hohe Effizienz des Aufbaus von Colossus: Die Fertigstellung erfolgte in nur 122 Tagen, während ähnliche Systeme üblicherweise Monate oder sogar Jahre benötigen. Vom Einsetzen des ersten Racks bis zum Trainingsbeginn vergingen nur 19 Tage.
Mit diesem Supercomputer bietet die Spectrum-X-Plattform eine Bandbreite von bis zu 400 Gbps, was die Datenübertragungsrate deutlich erhöht und die Latenz reduziert. Diese Eigenschaft ist für Unternehmen entscheidend, die eine schnelle Datenverarbeitung und Echtzeit-Analysen benötigen. Darüber hinaus ist Spectrum-X für KI-Anwendungen optimiert und ermöglicht eine intelligentere Datenleitung und -verwaltung, wodurch die Gesamtleistung des Systems verbessert wird.
Die Architektur von Colossus ist auf effiziente Skalierbarkeit ausgelegt, um den riesigen Datenmengen moderner Anwendungen gerecht zu werden. Gleichzeitig legt Spectrum-X Wert auf Nachhaltigkeit und zielt darauf ab, den Energieverbrauch von Rechenzentren bei gleichzeitiger Aufrechterhaltung hoher Leistung zu reduzieren und Unternehmen bei der Senkung ihres CO2-Fußabdrucks zu unterstützen.
Wichtigste Punkte:
🌟 Der Colossus-Supercomputer besteht aus 100.000 NVIDIA Hopper GPUs, trainiert große Sprachmodelle und soll auf 200.000 GPUs erweitert werden.
⚡ Die Spectrum-X-Netzwerkplattform bietet eine Bandbreite von bis zu 400 Gbps und optimiert die Datenübertragung und Echtzeit-Analysefähigkeiten.
🌱 Die Plattform konzentriert sich auf Nachhaltigkeit und zielt darauf ab, den Energieverbrauch von Rechenzentren zu reduzieren und gleichzeitig eine hohe Leistung aufrechtzuerhalten.