先日、テクノロジー分析機関SemiAnalysisは5ヶ月間にわたる調査報告を発表し、AMDが最近発売したMI300X AIチップに深刻なソフトウェアの問題が存在し、本来の性能を発揮できないため、AIチップ市場でNvidiaの支配的地位に挑戦できないことを明らかにしました。

チップ テクノロジー (1)

画像出典:AI生成画像、画像ライセンス提供元Midjourney

報告書によると、AMDのソフトウェアには多くのバグがあり、AIモデルのトレーニングがほぼ不可能になり、ユーザーは膨大な時間をデバッグに費やす必要があります。一方、Nvidiaは新しい機能、ライブラリ、パフォーマンスアップデートを継続的にリリースしており、両者の差はさらに広がっています。分析担当者はGEMMベンチマークテストやシングルノードトレーニングなど、多くのテストを実施しましたが、AMDは「CUDAの堀(Nvidiaのソフトウェアにおける強力な優位性)」を克服できませんでした。

ハードウェア仕様を見ると、MI300Xのパフォーマンスデータは非常に魅力的で、FP16演算能力は1307TeraFLOPS、192GBのHBM3メモリを搭載しています。一方、NvidiaのH100は989TeraFLOPSと80GBメモリですが、Nvidia最新のH200はメモリ容量でこの差を縮小し、141GBの構成を提供しています。注目すべきは、AMDシステムは総保有コスト(TCO)において優位性があり、価格が安く、イーサネットネットワークも安価であることです。

しかし、これらのハードウェア上の優位性は、実際の使用では期待通りの効果をもたらしませんでした。SemiAnalysisはこの現象を「カメラを画素数だけで比較するようなもの」と表現し、AMDが数字のゲームに迷い込み、十分な実用的な性能を提供できていないと指摘しています。使用可能なベンチマーク結果を得るために、アナリストはAMDのエンジニアと直接協力して複数のソフトウェアバグを修正する必要がありました。一方、Nvidiaのシステムは追加の調整なしで使用できました。

報告書では、AMD最大のGPUクラウドサービスプロバイダーであるTensorwaveでさえ、ソフトウェアの問題解決のために、自社で購入したGPUをAMDチームに無償で提供せざるを得なかったことも述べられています。そのため、SemiAnalysisはAMDのCEOであるリサ・スー氏に対し、ソフトウェア開発とテストへの投資を大幅に増やすよう、特に大量のMI300Xチップを自動テストに使用し、複雑な環境変数を簡素化し、デフォルト設定を改善して出荷時の体験を向上させるよう推奨しています。

SemiAnalysisはAMDがNvidiaの強力な競争相手になることを期待していますが、「まだやるべきことがたくさんある」とも述べています。ソフトウェアを大幅に改善しなければ、AMDはさらに遅れをとるリスクに直面します。特に、Nvidiaが次世代Blackwellチップの発売を準備していることを考えると、Nvidiaの次世代製品の発売が順調ではないという報告もあるものの、そのリスクは高まります。

要点:

🌟 AMD MI300X AIチップは深刻なソフトウェアの問題を抱えており、AIモデルのトレーニングが困難になっています。

🔧 Nvidiaは強力なCUDAプラットフォームにより市場優位性を拡大し続け、頻繁なソフトウェアアップデートを提供しています。

💡 SemiAnalysisはAMDに対し、ソフトウェア開発への投資を増やし、ユーザーエクスペリエンスを改善して競争力を高めるよう推奨しています。