Stable Video 4D (SV4D) は、Stable Video Diffusion (SVD) と Stable Video 3D (SV3D) をベースとした生成モデルです。単一視点の動画を入力として受け取り、そのオブジェクトの複数の新しい視点の動画(4D画像マトリックス)を生成します。このモデルは、5つの同じサイズの参照フレームを与えられた場合、576x576ピクセルの解像度で40フレーム(5つの動画フレーム x 8つのカメラ視点)を生成するように学習されています。SV3Dを使用して軌道動画を生成し、その軌道動画をSV4Dの参照ビューとして使用し、入力動画を参照フレームとして使用して4Dサンプリングを行います。また、生成された最初のフレームをアンカーとして使用し、残りのフレームを密集サンプリング(補間)することで、より長い新しい視点の動画を生成します。