テンセントは最近、独自開発の星脈ネットワーク2.0版を発表しました。この大幅なアップグレードにより、大規模な人工知能モデルのトレーニングにおいて顕著な性能向上を実現しました。新バージョンは、ネットワーク規模、ハードウェア性能、通信プロトコル、故障診断など、複数の面でブレークスルーを達成しています。

ネットワーク規模に関しては、星脈ネットワーク2.0は単一クラスタで10万枚のカード接続をサポートし、大規模なAIトレーニングのための強力なインフラストラクチャを提供します。この拡張は、将来、さらに大規模なAIモデルのトレーニングの基礎を築きます。

インターネット 大データ2

画像出典:AI生成画像、画像ライセンス提供元Midjourney

ハードウェアのアップグレードにおいては、テンセント独自開発のスイッチ容量が25.6Tから51.2Tに倍増しました。同時に、独自開発のシリコンフォトニクスモジュール速度が200Gから400Gに倍増しました。新バージョンには独自開発の計算力ネットワークカードも搭載されており、マシンの通信帯域幅が3.2Tに達し、業界をリードするレベルです。これらのハードウェアのアップグレードは、ネットワーク性能の大幅な向上を確実なものにしました。

通信プロトコルに関しては、テンセントは新しいTiTa2.0プロトコルを発表しました。その配置場所はスイッチからネットワークカードに移されました。同時に、輻輳アルゴリズムもアクティブ輻輳制御アルゴリズムにアップグレードされました。これらの最適化により、通信効率が30%向上し、大規模モデルのトレーニング効率が10%向上しました。

さらに、テンセントは新しい高性能集合通信ライブラリTCCL2.0を発表しました。このライブラリはNVLINK+NET異種並列通信技術を採用し、データの並列転送を実現しました。Auto-Tune Network Expert適応アルゴリズムと組み合わせることで、システムは機種、ネットワーク規模、モデルアルゴリズムなどの違いに応じて、さまざまなパラメータを自動的に調整できます。このアップグレードにより、通信性能がさらに30%向上し、大規模モデルのトレーニング効率がさらに10%向上しました。

注目すべきは、TiTaとTCCLのアップグレード効果が相乗効果を発揮し、星脈ネットワークの通信効率が全体で60%向上し、大規模モデルのトレーニング効率が全体で20%向上したことでしょう。この顕著な性能向上は、AIモデルのトレーニングプロセスを大幅に加速し、研究者や開発者により効率的な作業環境を提供します。