Nvidia hat kürzlich seine neue Blackwell-Plattform vorgestellt und deren vorläufige Leistung im MLPerf Training 4.1 Benchmark präsentiert. Den Testergebnissen zufolge verdoppelt Blackwell in einigen Bereichen die Leistung der Vorgängergeneration Hopper, was in der Branche große Aufmerksamkeit erregt.

image.png

Im MLPerf Training 4.1 Benchmark erreichte die Blackwell-Plattform bei der Llama270B-Feinabstimmung (LLM – großes Sprachmodell) eine 2,2-fache Leistung pro GPU im Vergleich zu Hopper. Bei der GPT-3175B-Vorabbildung erzielte sie eine Verdoppelung der Leistung. Auch bei anderen Benchmarks wie dem Stable Diffusion v2 Training übertraf die neue Blackwell-Generation ihr Vorgängermodell um das 1,7-fache.

Bemerkenswert ist, dass Hopper weiterhin Fortschritte zeigt und seine Leistung bei der Vorabbildung von Sprachmodellen im Vergleich zur vorherigen MLPerf Training Benchmark-Runde um das 1,3-fache gesteigert hat. Dies zeigt die kontinuierliche technologische Weiterentwicklung von Nvidia. Beim jüngsten GPT-3175B-Benchmark setzte Nvidia mit 11.616 Hopper-GPUs einen neuen Skalierungsrekord.

Zu den technischen Details von Blackwell erklärt Nvidia, dass die neue Architektur optimierte Tensor-Cores und einen schnelleren Hochbandbreiten-Speicher verwendet. Dadurch konnte der GPT-3175B-Benchmark mit nur 64 GPUs ausgeführt werden, während mit der Hopper-Plattform 256 GPUs für die gleiche Leistung benötigt wurden.

Nvidia betonte auf der Vorstellung auch die Leistungssteigerungen durch Software- und Netzwerk-Updates bei Hopper und erwartet ähnliche Verbesserungen bei Blackwell durch zukünftige Updates. Darüber hinaus plant Nvidia die Einführung des nächsten AI-Beschleunigers Blackwell Ultra für das nächste Jahr, der voraussichtlich mehr Speicher und höhere Rechenleistung bieten wird.

Blackwell debütierte im September letzten Jahres auch im MLPerf Inference v4.1 Benchmark. Im Bereich des AI-Inferenz erreichte es eine beeindruckende vierfache Leistung pro GPU im Vergleich zu H100, insbesondere bei Verwendung der niedrigeren FP4-Genauigkeit. Dieser neue Trend zielt darauf ab, der wachsenden Nachfrage nach KI-Rechenleistung für latenzarme Chatbots und intelligente Berechnungen wie das OpenAI o1-Modell gerecht zu werden.

Highlights:

- 🚀 **Nvidia Blackwell Plattform verdoppelt die Leistung im AI-Training und setzt neue Branchenstandards!**

- 📈 **Beim GPT-3175B-Benchmark benötigt Blackwell nur 64 GPUs und steigert so die Effizienz deutlich!**

- 🔍 **Blackwell Ultra wird nächstes Jahr erwartet und soll mehr Speicher und Rechenleistung bieten!**