Tencent Cloud präsentiert Starlink Network 2.0: Beschleunigung des Trainings großer Modelle um 20%

Tencent Cloud hat kürzlich die aktualisierte Version von Starlink Network 2.0 vorgestellt, um die Effizienz des Trainings großer Modelle zu verbessern. In der vorherigen Version beanspruchte die Synchronisierung der Berechnungsergebnisse großer Modelle über 50 % der Zeit, was zu einer niedrigen Effizienz führte. Die neue Version von Starlink Network 2.0 wurde in mehreren Aspekten verbessert:

微信截图_20240701164156.png

1. Unterstützung von 100.000 Karten in einem einzigen Cluster, Verdoppelung der Größe, Steigerung der Netzwerkeffizienz um 60 %, Steigerung der Effizienz beim Training großer Modelle um 20 %, Reduzierung der Fehlerbehebungszeit von Tagen auf Minuten.
2. Eigenentwickelte Upgrades für Switches, optische Module und Netzwerkkarten, zuverlässigere Infrastruktur, Unterstützung von über 100.000 GPU-Karten in einem einzigen Cluster.
3. Das neue Kommunikationsprotokoll TiTa 2.0 wird auf der Netzwerkkarte implementiert. Der Staualgorithmus wurde auf einen aktiven Stau-Kontrollalgorithmus aktualisiert, wodurch die Kommunikationseffizienz um 30 % und die Effizienz beim Training großer Modelle um 10 % gesteigert wird.
4. Die Hochleistungs-Sammelkommunikationsbibliothek TCCL 2.0 verwendet NVLINK+NET-heterogene parallele Kommunikation, um die parallele Datenübertragung zu ermöglichen. Sie verfügt außerdem über den Auto-Tune Network Expert-Adaptionsalgorithmus, der die Kommunikationsleistung um 30 % und die Effizienz beim Training großer Modelle um 10 % verbessert.
5. Hinzufügung der exklusiven Tencent-Technologie, der Lingjing-Simulations-Plattform, zur umfassenden Überwachung des Cluster-Netzwerks und zur präzisen Lokalisierung von Problemen mit GPU-Knoten. Die Fehlerbehebungszeit für das Training mit Tausenden von Karten wird von Tagen auf Minuten reduziert.

Durch diese Upgrades wurde die Kommunikationseffizienz von Starlink Network um 60 % und die Effizienz beim Training großer Modelle um 20 % gesteigert. Auch die Genauigkeit der Fehlerbehebung wurde verbessert. Diese Verbesserungen tragen dazu bei, die Effizienz und Leistung des Trainings großer Modelle zu verbessern und die teuren GPU-Ressourcen besser zu nutzen.

KI-Nachrichten und -Informationen

Tencent Cloud präsentiert Starlink Network 2.0: Beschleunigung des Trainings großer Modelle um 20%

AIbase