最近、Stability AI社は画期的な動画処理技術「Stable Video4D」を発表しました。この技術は、単一視点の動画を8つの異なる視点の動画に変換でき、クリエイターに前例のない柔軟性と創造性を提供します。

Stable Video4Dは、同社が以前発表したStable Video Diffusionモデルを基盤としています。画像を動画に変換するのではなく、この新しいモデルは動画を入力として受け取り、複数の新しい視点の動画を出力します。これにより、画像ベースの動画生成から完全な3Dダイナミック動画合成への大きな飛躍を実現しました。

使用方法としては、ユーザーは動画をアップロードし、必要な3Dカメラの位置を指定するだけで、Stable Video4Dが8つの新しい視点の動画を生成します。これにより、あらゆる角度からの多角的な視点を得ることができます。現在、このモデルは約40秒で8つの視点の5フレームの動画を生成でき、4D最適化全体には約20~25分かかります。

以前の方法と比較して、Stable Video4Dは複数の新しい視点の動画を同時に生成できるため、空間と時間軸の一貫性が大幅に向上します。これにより、複数の視点とタイムスタンプにおけるオブジェクトの一貫性が確保されるだけでなく、より軽量な4D最適化フレームワークが実現します。

QQ_1721866365855.png

Stability AIは、Stable Video4Dは現在研究段階にあり、将来はゲーム開発、動画編集、仮想現実などの分野で広く利用される可能性があると述べています。同社は、より幅広い現実世界の動画を処理できるように、モデルの最適化に積極的に取り組んでいます。

Stable Video4Dは現在、Hugging Faceプラットフォームで公開されています。Stability AIは、継続的な研究開発を通じて、この技術によるリアルな多角的動画作成の可能性をさらに高めることを期待しています。同社は、研究者、専門家、コミュニティと協力して技術革新を推進し、モデルの性能を継続的に向上させていきます。

モデルアドレス:https://huggingface.co/stabilityai/sv4d