VLOGGERは、一枚の人物入力画像からテキストと音声で駆動される話す人間のビデオを生成する手法です。これは、近年の生成拡散モデルの成功に基づいています。私たちの手法は、1) ランダムな人物から3Dモーションへの拡散モデル、そして2) 時間と空間制御を強化した、新規の拡散ベースアーキテクチャによるテキストから画像へのモデルを含みます。この手法は、可変長の高品質ビデオを生成でき、人間の顔と体の高度な表現方法によって容易に制御できます。以前の研究とは異なり、私たちの手法は個人ごとにトレーニングする必要がなく、顔検出や切り抜きにも依存しません。全身像(顔や唇だけでなく)を生成し、人間らしいコミュニケーションに必要な幅広いシーン(例えば、見える体幹や多様な体格)を考慮しています。