Im Bereich des KI-Trainings ist Nvidia mit seinen Grafikkarten nahezu unschlagbar. Bei der KI-Inferenz holen die Konkurrenten jedoch auf, insbesondere in Bezug auf die Energieeffizienz. Ob Nvidia mit seinem neuesten Blackwll-Chip seine Führungsposition behaupten kann, bleibt abzuwarten.

ML Commons hat kürzlich die Ergebnisse des neuesten KI-Inferenz-Wettbewerbs – MLPerf Inference v4.1 – veröffentlicht. An diesem Wettbewerb nahmen erstmals AMD mit seinen Instinct-Beschleunigern, Google mit Trillium-Beschleunigern, das kanadische Startup UntetherAI und Nvidia mit dem Blackwll-Chip teil. Cerebras und FuriosaAI stellten zwar neue Inferenzchips vor, reichten aber keine Ergebnisse für MLPerf ein.

image.png

MLPerf ist aufgebaut wie eine Olympiade mit verschiedenen Disziplinen und Unterdisziplinen. Die meisten Teilnehmer finden sich in der Kategorie „Data Center Closed“. Im Gegensatz zur offenen Kategorie müssen die Teilnehmer in der geschlossenen Kategorie Inferenzen auf einem gegebenen Modell durchführen, ohne die Software erheblich zu modifizieren. Die Data-Center-Kategorie testet hauptsächlich die Fähigkeit zur Verarbeitung von Batch-Anfragen, während die Edge-Kategorie die Minimierung der Latenz im Fokus hat.

Jede Kategorie umfasst 9 verschiedene Benchmarks, die verschiedene KI-Aufgaben abdecken, darunter beliebte Bildgenerierung (denken Sie an Midjourney) und Frage-Antwort-Systeme für große Sprachmodelle (z. B. ChatGPT), aber auch wichtige, weniger bekannte Aufgaben wie Bildklassifizierung, Objekterkennung und Empfehlungssysteme.

Diese Runde umfasste einen neuen Benchmark: „Expert Mixture Models“. Dies ist eine immer beliebtere Methode zum Einsatz von Sprachmodellen, bei der ein Sprachmodell in mehrere unabhängige kleinere Modelle aufgeteilt wird, wobei jedes Modell für eine bestimmte Aufgabe feinabgestimmt ist, z. B. alltägliche Konversationen, das Lösen mathematischer Probleme oder Programmierhilfe. Durch die Zuweisung jeder Anfrage an das entsprechende kleinere Modell wird die Ressourcennutzung reduziert, was zu geringeren Kosten und höherem Durchsatz führt, so Miroslav Hodak, leitender Techniker bei AMD.

image.png

Bei dem beliebten Benchmark „Data Center Closed“ siegten weiterhin die Einreichungen auf Basis von Nvidias H200-GPU und GH200-Superchip, die GPU und CPU in einem Paket kombinieren. Eine genauere Analyse der Ergebnisse offenbart jedoch interessante Details. Einige Teilnehmer verwendeten mehrere Beschleuniger, andere nur einen. Normalisiert man die Abfragen pro Sekunde nach der Anzahl der Beschleuniger und behält die beste Einreichung für jeden Beschleunigertyp bei, wird das Ergebnis unklarer. Diese Methode ignoriert jedoch die Rolle von CPU und Interconnect.

Auf Basis jedes Beschleunigers zeigte Nvidias Blackwll bei der Frage-Antwort-Aufgabe für große Sprachmodelle hervorragende Ergebnisse und war 2,5-mal schneller als vorherige Chip-Iterationen. Dies war der einzige Benchmark, der eingereicht wurde. Der SpeedAI240-Preview-Chip von Untether AI erreichte bei seiner einzigen Einreichung (Bilderkennung) nahezu die gleiche Leistung wie der H200. Googles Trillium lag bei der Bildgenerierung etwas hinter H100 und H200 zurück, während AMDs Instinct bei der Frage-Antwort-Aufgabe für große Sprachmodelle mit dem H100 mithalten konnte.

Der Erfolg des Blackwll liegt teilweise in seiner Fähigkeit, große Sprachmodelle mit 4-Bit-Gleitkommagenauigkeit zu betreiben. Nvidia und seine Konkurrenten arbeiten daran, die Bitzahl der Datenrepräsentation in Transformationsmodellen (z. B. ChatGPT) zu reduzieren, um die Berechnungsgeschwindigkeit zu erhöhen. Nvidia führte mit dem H100 8-Bit-Arithmetik ein, und diese Einreichung ist die erste Demonstration von 4-Bit-Arithmetik im MLPerf-Benchmark.

Die größte Herausforderung bei der Verwendung so niedrigpräziser Zahlen besteht darin, die Genauigkeit zu erhalten, so Dave Salvator, Director of Product Marketing bei Nvidia. Um bei der MLPerf-Einreichung eine hohe Genauigkeit zu gewährleisten, hat das Nvidia-Team umfangreiche Innovationen in der Software vorgenommen.

Darüber hinaus hat der Blackwll eine nahezu verdoppelte Speicherbandbreite von 8 Terabyte pro Sekunde, während der H200 4,8 Terabyte pro Sekunde erreicht.

Die Blackwll-Einreichung von Nvidia verwendete einen einzelnen Chip, aber Salvator sagte, dass er für Netzwerke und Skalierung entwickelt wurde und in Kombination mit Nvidias NVLink-Interconnect seine beste Leistung erbringen wird. Die Blackwll-GPU unterstützt bis zu 18 NVLink-Verbindungen mit 100 GB pro Sekunde, was eine Gesamtbandbreite von 1,8 Terabyte pro Sekunde ergibt – fast doppelt so viel wie die Interconnect-Bandbreite des H100.

image.png

Salvator ist der Ansicht, dass selbst die Inferenz mit dem Wachstum großer Sprachmodelle Multi-GPU-Plattformen benötigen wird, um den Bedarf zu decken, und der Blackwll wurde genau für diesen Fall entwickelt. „Blackwll ist eine Plattform“, sagte Salvator.

Nvidia hat sein Blackwll-Chipsystem in die Preview-Unterkategorie eingereicht, was bedeutet, dass es noch nicht auf dem Markt ist, aber voraussichtlich vor der nächsten MLPerf-Veröffentlichung verfügbar sein wird, in etwa sechs Monaten.

MLPerf enthält für jeden Benchmark auch einen Energiemessteil, der systematisch den tatsächlichen Energieverbrauch jedes Systems bei der Ausführung von Aufgaben testet. An dem Hauptwettbewerb dieser Runde (Data Center Closed Energy) nahmen nur Nvidia und Untether AI teil. Während Nvidia an allen Benchmarks teilnahm, reichte Untether nur Ergebnisse für die Bilderkennungsaufgabe ein.

image.png

Untether AI erzielte hier hervorragende Ergebnisse in Bezug auf die Energieeffizienz. Ihr Chip verwendet eine Methode namens „In-Memory Computing“. Der Chip von Untether AI besteht aus einer Reihe von Speichereinheiten mit kleinen Prozessoren in der Nähe. Jeder Prozessor arbeitet parallel und verarbeitet gleichzeitig Daten in den benachbarten Speichereinheiten, wodurch der Zeit- und Energieaufwand für die Übertragung von Modelldaten zwischen Speicher und Recheneinheiten deutlich reduziert wird.

„Wir haben festgestellt, dass bei der Durchführung von KI-Workloads 90 % des Energieverbrauchs auf das Verschieben von Daten von DRAM zu Cache-Verarbeitungseinheiten zurückzuführen sind“, sagte Robert Beachler, Vice President of Product bei Untether AI. „Daher verschiebt Untether die Berechnung zu den Daten, anstatt die Daten zu den Recheneinheiten zu verschieben.“

Diese Methode zeigte sich in einer anderen Unterkategorie von MLPerf als besonders effektiv: Edge Closed. Diese Kategorie konzentriert sich auf realistischere Anwendungsfälle wie die Maschinenprüfung in Fabriken, die Führung von visuellen Robotern und selbstfahrende Fahrzeuge – Anwendungen, die hohe Anforderungen an Energieeffizienz und schnelle Verarbeitung stellen, erklärte Beachler.

Bei der Bilderkennungsaufgabe war der SpeedAI240-Preview-Chip von Untether AI 2,8-mal schneller als Nvidias L40S und hatte einen 1,6-mal höheren Durchsatz (Samples pro Sekunde). Das Startup reichte auch Energieverbrauchsdaten für diese Kategorie ein, im Gegensatz zu den Nvidia-Konkurrenten, daher ist ein direkter Vergleich schwierig. Der SpeedAI240-Preview-Chip von Untether AI hat jedoch eine Nennleistung von 150 Watt, während der Nvidia L40S 350 Watt verbraucht, was einen 2,3-fachen Vorteil in Bezug auf den Energieverbrauch zeigt, bei gleichzeitig besserer Latenz.

Obwohl Cerebras und Furiosa nicht an MLPerf teilnahmen, haben sie jeweils neue Chips vorgestellt. Cerebras stellte seinen Inferenz-Service auf der IEEE Hot Chips-Konferenz der Stanford University vor. Der von dem in Sunnyvale, Kalifornien, ansässigen Unternehmen Cerebras hergestellte riesige Chip ist so groß wie es die Siliziumwafer zulassen, wodurch die Verbindung zwischen den Chips entfällt und die Speicherbandbreite des Geräts erheblich erhöht wird. Er wird hauptsächlich zum Trainieren riesiger neuronaler Netze verwendet. Jetzt wurde der neueste Computer CS3 für die Inferenz erweitert.

Obwohl Cerebras keine MLPerf-Ergebnisse eingereicht hat, behauptet das Unternehmen, dass seine Plattform die Anzahl der pro Sekunde generierten LLM-Token um das 7-fache gegenüber dem H100 und das 2-fache gegenüber dem Konkurrenz-Chip Groq übertrifft. „Heute befinden wir uns im Zeitalter der Generativen KI“, sagte Andrew Feldman, CEO und Mitbegründer von Cerebras. „Das liegt an Engpässen bei der Speicherbandbreite. Ob Nvidias H100, AMDs MI300 oder TPUs – sie verwenden alle den gleichen externen Speicher, was zu den gleichen Einschränkungen führt. Wir haben diese Hürde überwunden, weil wir ein Wafer-Level-Design verwenden.“

Auf der Hot Chips-Konferenz präsentierte Furiosa aus Seoul auch seinen zweiten Generation Chip RNGD (ausgesprochen „Rebel“). Der neue Chip von Furiosa zeichnet sich durch seine Tensor Contraction Processing (TCP)-Architektur aus. Bei KI-Workloads ist die grundlegende mathematische Operation die Matrixmultiplikation, die üblicherweise als Primitiv in der Hardware implementiert wird. Die Größe und Form der Matrizen, also allgemeiner Tensoren, kann jedoch sehr unterschiedlich sein. RNGD implementiert diese allgemeinere Tensor-Multiplikation als Primitiv. „Bei der Inferenz variiert die Batch-Größe stark, daher ist es wichtig, die inhärente Parallelität und Datenwiederverwendung einer gegebenen Tensorform optimal zu nutzen“, sagte June Paik, Gründerin und CEO von Furiosa, auf der Hot Chips-Konferenz.

Obwohl Furiosa nicht an MLPerf teilnahm, verglich das Unternehmen in internen Tests den RNGD-Chip mit dem LLM-Zusammenfassung-Benchmark von MLPerf und erzielte vergleichbare Ergebnisse wie der L40S-Chip von Nvidia, verbrauchte aber nur 185 Watt, während der L40S 320 Watt verbraucht. Paik sagte, dass die Leistung durch weitere Softwareoptimierungen verbessert werden wird.

IBM kündigte außerdem seinen neuen Spyre-Chip an, der speziell für generative KI-Workloads in Unternehmen entwickelt wurde und voraussichtlich im ersten Quartal 2025 auf den Markt kommen wird.

Der Markt für KI-Inferenzchips wird in absehbarer Zukunft also dynamisch bleiben.

Referenzen: https://spectrum.ieee.org/new-inference-chips