Loopyは、エンドツーエンドの音声駆動型ビデオ拡散モデルです。クロス・クリップとインクリップの時間モジュール、および音声から潜在表現へのモジュールを特別に設計することで、データ内の長期的な運動情報を利用して自然な運動パターンを学習し、音声と肖像画の動きの関連性を高めます。この手法により、既存の方法で必要とされていた空間運動テンプレートの手動指定が不要になり、様々なシーンにおいてよりリアルで高品質な結果を実現します。