Anfang dieses Jahres veröffentlichte Google den sechsten und bisher leistungsstärksten TPU – Trillium. Heute wird Trillium offiziell für Google Cloud-Kunden verfügbar.
Google trainierte mit dem Trillium TPU das neueste Gemini 2.0, das bisher leistungsstärkste KI-Modell von Google. Nun können Unternehmen und Startups dieselbe leistungsstarke, effiziente und nachhaltige Infrastruktur nutzen.
Das Herzstück des KI-Supercomputers: Trillium TPU
Trillium TPU ist ein zentraler Bestandteil des Google Cloud AI Hypercomputers. Der AI Hypercomputer ist eine bahnbrechende Supercomputer-Architektur, die leistungsoptimierte Hardware, Open-Source-Software, führende ML-Frameworks und ein flexibles, integriertes Konsummodell vereint. Mit der offiziellen Einführung von Trillium TPU hat Google auch die Open-Source-Schicht des AI Hypercomputers entscheidend verbessert, darunter der optimierte XLA-Compiler und gängige Frameworks wie JAX, PyTorch und TensorFlow, um branchenführende Preis-Leistungs-Verhältnisse beim KI-Training, -Tuning und -Service zu erreichen.
Zusätzliche Funktionen wie Host-Offloading mit großem Host-DRAM (ergänzt Hochbandbreiten-Speicher oder HBM) bieten ein höheres Maß an Effizienz. Der AI Hypercomputer ermöglicht es Ihnen, den maximalen Wert aus über 100.000 Trillium-Chip-Deployments in jeder Jupiter-Netzwerkarchitektur zu ziehen, die eine bidirektionale Bandbreite von 13 Petabit/Sekunde bietet und es ermöglicht, einzelne verteilte Trainingsjobs auf Hunderttausende von Beschleunigern zu skalieren.
Kunden wie AI21Labs nutzen Trillium bereits, um ihren Kunden schneller sinnvolle KI-Lösungen bereitzustellen:
Barak Lenz, CTO von AI21Labs, sagt: „Bei AI21 arbeiten wir kontinuierlich daran, die Leistung und Effizienz unserer Sprachmodelle Mamba und Jamba zu verbessern. Als langjähriger Nutzer von TPU v4 sind wir von den Funktionen von Googles Trillium beeindruckt. Die Fortschritte in Bezug auf Skalierbarkeit, Geschwindigkeit und Kosteneffizienz sind bemerkenswert. Wir glauben, dass Trillium eine entscheidende Rolle bei der Beschleunigung der Entwicklung unserer nächsten Generation komplexer Sprachmodelle spielen wird, wodurch wir unseren Kunden leistungsstärkere und leichter zugängliche KI-Lösungen bieten können.“
Trillium: Deutlich verbesserte Leistung, Rekorde in mehreren Kennzahlen
Im Vergleich zur Vorgängergeneration bietet Trillium erhebliche Verbesserungen:
Trainingsleistung um über das Vierfache gesteigert
Inferenz-Durchsatz um das Dreifache gesteigert
Energieeffizienz um 67 % gesteigert
Spitzenrechenleistung pro Chip um das 4,7-Fache gesteigert
Hochbandbreiten-Speicher (HBM)-Kapazität verdoppelt
Chip-zu-Chip-Interconnect (ICI)-Bandbreite verdoppelt
100.000 Trillium-Chips in einer einzelnen Jupiter-Netzwerkarchitektur
Trainingsleistung pro Dollar um das 2,5-Fache, Inferenzleistung pro Dollar um das 1,4-Fache gesteigert
Diese Verbesserungen ermöglichen es Trillium, bei verschiedenen KI-Workloads hervorragende Ergebnisse zu erzielen, darunter:
Skalierung von KI-Trainings-Workloads
Training von LLMs, einschließlich dichtbesetzter Modelle und Mixture-of-Experts (MoE)-Modelle
Inferenzleistung und Ensemble-Scheduling
Einbettungsintensive Modelle
Kostengünstiges Training und Inferenz
Wie Trillium bei verschiedenen Workloads überzeugt
Skalierung von KI-Trainings-Workloads
Das Training großer Modelle wie Gemini 2.0 erfordert enorme Datenmengen und Rechenleistung. Die nahezu lineare Skalierbarkeit von Trillium ermöglicht es, diese Modelle durch die effiziente und effektive Verteilung der Workloads auf mehrere Trillium-Hosts, die über Hochgeschwindigkeits-Chip-zu-Chip-Interconnects in 256-Chip-Pods und unserem hochmodernen Jupiter-Rechenzentrumsnetzwerk verbunden sind, deutlich schneller zu trainieren. Dies wird durch TPU-Multi-Chip, eine umfassende Technologie für das Training im großen Maßstab, erreicht und durch Titanium weiter optimiert, einem dynamischen Datencenter-Level-Offloading-System, das von Host-Adaptern bis hin zur Netzwerkarchitektur reicht.
Trillium erreichte eine Skalierungseffizienz von 99 % bei einer Bereitstellung mit 12 Pods aus jeweils 3072 Chips und zeigte eine Skalierungseffizienz von 94 % bei 24 Pods mit 6144 Chips beim Pretraining von gpt3-175b, selbst beim Betrieb über ein Rechenzentrumsnetzwerk.
Training von LLMs, einschließlich dichtbesetzter Modelle und Mixture-of-Experts (MoE)-Modelle
LLMs wie Gemini sind an sich schon sehr leistungsstark und komplex und verfügen über Milliarden von Parametern. Das Training solcher dichtbesetzter LLMs erfordert enorme Rechenleistung sowie eine gemeinsam entwickelte Softwareoptimierung. Trillium ist beim Training dichtbesetzter LLMs wie Llama-2-70b und gpt3-175b um das Vierfache schneller als die Vorgängergeneration Cloud TPU v5e.
Neben dichtbesetzten LLMs ist das Training von LLMs mit der Mixture-of-Experts (MoE)-Architektur ein immer beliebterer Ansatz, der mehrere „Experten“-Neuronale Netze kombiniert, wobei jedes Netzwerk auf verschiedene Aspekte der KI-Aufgabe spezialisiert ist. Die Verwaltung und Koordination dieser Experten während des Trainings erhöht im Vergleich zum Training eines einzelnen, monolithischen Modells die Komplexität. Trillium ist beim Training von MoE-Modellen um das 3,8-Fache schneller als die Vorgängergeneration Cloud TPU v5e.
Darüber hinaus bietet Trillium TPU im Vergleich zu Cloud TPU v5e dreimal so viel Host-Dynamic Random Access Memory (DRAM). Dies entlastet einige Berechnungen auf den Host und trägt dazu bei, die Leistung und den Durchsatz im großen Maßstab zu maximieren. Die Host-Offloading-Funktion von Trillium verbesserte die Modell-FLOP-Auslastung (MFU) beim Training des Llama-3.1-405B-Modells um über 50 %.
Inferenzleistung und Ensemble-Scheduling
Bei der Inferenz gewinnt die mehrstufige Inferenz zunehmend an Bedeutung, was erfordert, dass Beschleuniger den erhöhten Rechenbedarf effektiv bewältigen können. Trillium bietet erhebliche Verbesserungen für Inferenz-Workloads und ermöglicht die schnellere und effizientere Bereitstellung von KI-Modellen. Tatsächlich bietet Trillium unsere beste TPU-Inferenzleistung für Bilddiffusion und dichtbesetzte LLMs. Unsere Tests zeigen, dass der relative Inferenz-Durchsatz (Bilder pro Sekunde) von Stable Diffusion XL um mehr als das Dreifache und der relative Inferenz-Durchsatz (Token pro Sekunde) von Llama2-70B um fast das Doppelte höher ist als bei Cloud TPU v5e.
Trillium ist unser leistungsstärkster TPU für Offline- und Server-Inferenz-Anwendungsfälle. Die folgende Abbildung zeigt, dass der relative Offline-Inferenz-Durchsatz (Bilder pro Sekunde) von Stable Diffusion XL um das 3,1-Fache und der relative Server-Inferenz-Durchsatz um das 2,9-Fache höher ist als bei Cloud TPU v5e.
Neben der verbesserten Leistung führt Trillium auch neue Ensemble-Scheduling-Funktionen ein. Diese Funktion ermöglicht es dem Google-Scheduling-System, intelligente Entscheidungen zur Auftragszuweisung zu treffen, um die Gesamtverfügbarkeit und Effizienz von Inferenz-Workloads zu verbessern, wenn mehrere Replikate in einem Ensemble vorhanden sind. Sie bietet eine Möglichkeit, mehrere TPU-Slices zu verwalten, die einzelne Host- oder Multi-Host-Inferenz-Workloads ausführen, einschließlich über Google Kubernetes Engine (GKE). Durch die Gruppierung dieser Slices in einem Ensemble kann die Anzahl der Replikate einfach an den Bedarf angepasst werden.
Einbettungsintensive Modelle
Durch die Hinzufügung der dritten Generation von SparseCore verdoppelt Trillium die Leistung einbettungsintensiver Modelle und vervierfacht die Leistung von DLRM DCNv2.
SparseCore sind Datenstromprozessoren, die eine anpassungsfähigere Architekturbasis für einbettungsintensive Workloads bieten. Die dritte Generation von SparseCore in Trillium ist darauf spezialisiert, dynamische und datenabhängige Operationen wie Scatter-Gather, Sparse-Segment-Summe und Partitionierung zu beschleunigen.
Kostengünstiges Training und Inferenz
Neben der absoluten Leistung und Skalierbarkeit, die für das Training der größten KI-Workloads der Welt erforderlich ist, wurde Trillium auch darauf ausgelegt, die Leistung pro Dollar zu optimieren. Bisher bietet Trillium beim Training dichtbesetzter LLMs wie Llama2-70b und Llama3.1-405b eine um das 2,1-Fache höhere Leistung pro Dollar als Cloud TPU v5e und eine um das 2,5-Fache höhere Leistung pro Dollar als Cloud TPU v5p.
Trillium eignet sich hervorragend für die parallele Verarbeitung großer Modelle auf kostengünstige Weise. Es wurde entwickelt, damit Forscher und Entwickler leistungsstarke und effiziente Bildmodelle zu deutlich geringeren Kosten als bisher bereitstellen können. Die Kosten für die Generierung von tausend Bildern auf Trillium sind bei Offline-Inferenz um 27 % und bei Server-Inferenz auf SDXL um 22 % niedriger als bei Cloud TPU v5e.
KI-Innovationen auf ein neues Level heben
Trillium stellt einen bedeutenden Sprung für die Google Cloud KI-Infrastruktur dar und bietet unglaubliche Leistung, Skalierbarkeit und Effizienz für verschiedene KI-Workloads. Mit seiner Fähigkeit, sich mit Hilfe von erstklassiger, gemeinsam entwickelter Software auf Hunderttausende von Chips zu skalieren, ermöglicht Trillium schnellere Durchbrüche und die Bereitstellung herausragender KI-Lösungen. Darüber hinaus macht das hervorragende Preis-Leistungs-Verhältnis von Trillium es zu einer kostengünstigen Option für Organisationen, die den Wert ihrer KI-Investitionen maximieren möchten. Angesichts der sich ständig weiterentwickelnden KI-Landschaft beweist Trillium das Engagement von Google Cloud, Spitzentechnologien bereitzustellen, um Unternehmen dabei zu unterstützen, das volle Potenzial der KI auszuschöpfen.
Offizielle Ankündigung: https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga