4D-fyは、混合分数蒸留サンプリング技術を用いたテキストから4Dシーンへの生成手法です。複数の事前学習済み拡散モデルの教師あり信号を組み合わせることで、高忠実度のテキストから4Dシーンへの生成を実現しています。本手法は、神経表現によって4D放射場をパラメータ化し、静的および動的多尺度ハッシュテーブル特徴量を使用し、ボリュームレンダリングによって表現から画像と動画をレンダリングします。混合分数蒸留サンプリングによって、まず3D認識テキストツーイメージモデル(3D-T2I)の勾配を用いて表現を最適化し、次にテキストツーイメージモデル(T2I)の勾配を組み合わせることで外観を改善し、最後にテキストツービデオモデル(T2V)の勾配を組み合わせることでシーンの動きを高めます。4D-fyは、魅力的な外観、3D構造、および動きを備えた4Dシーンを生成できます。