中国を代表するAI企業DeepSeekは、オープンソースウィークの最終日に技術的な「核爆弾」とも言える発表を行いました。現代の計算能力を考慮して設計された高性能並列ファイルシステム3FS(Fire-Flyer File System)と、それに対応するデータ処理フレームワークSmallpondを正式にリリースしたのです。この組み合わせは、AIトレーニングと推論におけるデータ処理のボトルネックを直接的に解決し、6.6TiB/sのクラスタスループットという業界新記録を達成しました。これは、分散ストレージ技術が新たな時代に入ったことを示しています。
性能革命:革新的なアーキテクチャが新たな基準を定義
3FSは、分散型アーキテクチャと強い整合性を持つセマンティック設計により、180ノードのクラスタで6.6TiB/sの集約読み取りスループットを実現し、単一ノードのKVCache検索のピークは40GiB/sを突破しました。GraySortベンチマークテストでは、25ノードで3.66TiB/minという結果を達成し、従来の方法と比べて指数関数的な向上を見せています。システムはSSDとRDMAネットワークの特性を深く最適化することで、ハードウェア帯域幅の利用率を最大限に高め、千枚規模のAIトレーニングクラスタに安定したデータ供給を提供します。
シナリオの再構築:AIワークフロー全体への包括的な支援
DeepSeek V3/R1バージョンのコアインフラストラクチャとして、3FSはデータ前処理、チェックポイントストレージ、ベクトル検索、推論キャッシュなどの重要な段階に全面的に浸透しています。共有ストレージ層設計により、分散開発の複雑さが大幅に簡素化され、強い整合性保証により、大規模な同時実行操作の安全性が確保されます。併せてオープンソース化されたSmallpondフレームワークは、軽量なPBレベルのデータ処理能力を構築し、DuckDBを活用して「サーバレス」データエンジニアリングを実現し、ストレージから計算までを網羅する完全なエコシステムを形成します。
オープンソース戦略:AIインフラストラクチャの民主化を加速
今回の3FSとSmallpondのダブルオープンソース化は、DeepSeekの「5日間連続リリース」という技術公開のペースを継続するものです。DeepSeekは、自社のAIビジネスで検証済みのシステムを公開することで、業界がデータ集約型アプリケーションのストレージボトルネックを克服することを推進しています。このソリューションは、CephやLustreなどの従来の分散システムに大きな影響を与える可能性があり、特に大規模モデルのトレーニングなどのシナリオにおいて新たなパラダイムを開拓すると分析されています。