Googleの研究チームが最近発表したReCapture技術は、従来のビデオ編集の方法を覆しつつあります。この革新的な技術により、一般ユーザーでもプロレベルのカメラワーク調整を簡単に実現し、撮影済みのビデオに新たな映像表現をデザインできるようになりました。
従来のビデオ編集では、撮影済みのビデオのカメラアングルを変更することは技術的に困難でした。既存の方法は、様々な種類のビデオコンテンツを処理する際に、複雑なカメラワークと画質の両方を維持することが難しいことがありました。ReCaptureは、従来の4D中間表現法とは異なるアプローチを採用し、生成ビデオモデルに保存された動きに関する知識を巧みに利用することで、Stable Video Diffusionを用いてタスクをビデオからビデオへの変換プロセスとして再定義しています。
このシステムは、二段階のワークフローを採用しています。第一段階では「アンカービデオ」、つまり新しい視点を持つ初期出力バージョンを生成します。この段階では、CAT3Dなどの拡散モデルを使用して多角的なビデオを作成したり、フレームごとの深度推定と点群レンダリングによって実現したりできます。このバージョンには、時間的な不整合や視覚的な欠陥がある可能性がありますが、第二段階の基礎となります。
第二段階では、マスク付きビデオ微調整を用いて、既存の素材でトレーニングされた生成ビデオモデルを使用して、リアルな動きと時間的な変化を作成します。システムは、時間的LoRA(低ランク適応)層を導入してモデルを最適化し、モデルがアンカービデオの具体的な動的特徴を理解して複製できるようにしています。これにより、モデル全体を再トレーニングする必要はありません。同時に、空間的LoRA層は、画質とコンテンツが新しいカメラワークと一致するようにします。これにより、生成ビデオモデルは、元のビデオの特徴的な動きを維持しながら、ズーム、パン、チルトなどの操作を実行できます。
ReCaptureはユーザーフレンドリーなビデオ処理において重要な進歩を遂げていますが、現在はまだ研究段階であり、商業化にはまだ時間がかかります。注目すべきは、Googleは多くのビデオAIプロジェクトを抱えているものの、市場に投入したものはまだなく、Veoプロジェクトが最も商業化に近い可能性があるということです。同様に、Metaが最近発表したMovie-Genモデルや、OpenAIが年初に発表したSoraも、商業化されていません。現在、ビデオAI市場はRunwayなどのスタートアップ企業が牽引しており、同社は昨年夏に最新のGen-3Alphaモデルを発表しました。