テンセントクラウドは最近、大規模モデルのトレーニング効率向上を目指した星脈ネットワーク2.0のアップグレード版を発表しました。以前のバージョンでは、大規模モデルの計算結果の同期通信時間が50%以上を占め、効率が低下していました。新しい星脈ネットワーク2.0では、いくつかの点でアップグレードが行われました。
1. 単一クラスタで10万枚のGPUカードのネットワーク接続をサポートし、規模が倍増。ネットワーク通信効率が60%向上し、大規模モデルのトレーニング効率が20%向上。障害の特定時間を数日レベルから数分レベルに短縮しました。
2. 自社開発のスイッチ、光モジュール、ネットワークカードなどのネットワーク機器をアップグレードし、インフラの信頼性を向上。単一クラスタで10万枚以上のGPUカード規模をサポートします。
3. ネットワークカードに新しい通信プロトコルTiTa2.0を導入。輻輳アルゴリズムをアクティブ輻輳制御アルゴリズムにアップグレードし、通信効率を30%向上、大規模モデルのトレーニング効率を10%向上しました。
4. 高性能集合通信ライブラリTCCL2.0は、NVLINK+NET異種並列通信を採用し、データの並列転送を実現。同時に、Auto-Tune Network Expert自動調整アルゴリズムを搭載し、通信性能を30%、大規模モデルのトレーニング効率を10%向上させました。
5. テンセント独自の技術である霊境シミュレーションプラットフォームを追加。クラスタネットワークの全面的な監視を実現し、GPUノードの問題を正確に特定。数万枚規模のカードを使用したトレーニングにおける障害特定時間を数日レベルから数分レベルに短縮しました。
これらのアップグレードにより、星脈ネットワークの通信効率は60%向上し、大規模モデルのトレーニング効率は20%向上、障害特定の精度も向上しました。これらの改善は、大規模モデルのトレーニング効率と性能を向上させ、高価なGPUリソースをより効果的に活用することに役立ちます。