先日、バイトダンス社は、静止画の人物肖像写真に音声入力で「話す」反応をさせることができる、INFPという人工知能システムを発表しました。従来技術とは異なり、INFPは話す役割や聞く役割を手動で指定する必要がなく、システムが会話の流れから自動的に判断します。
INFPのワークフローは主に2つのステップに分かれています。1つ目は「モーションベースのヘッドミミック」と呼ばれ、システムは会話中の人々の表情や頭の動きを分析し、ビデオから詳細な情報を抽出します。これらのモーションデータは、後続のアニメーションに使用できる形式に変換され、静止画が元の人の動きと一致するようにします。
2つ目は「音声誘導モーション生成」で、システムは音声入力に基づいて自然な動きパターンを生成します。研究チームは、「モーションガイド」と呼ばれるツールを開発しました。このツールは、会話双方の音声分析を通じて、話し手と聞き手の動きパターンを作成します。その後、拡散トランスフォーマーというAIコンポーネントがこれらのパターンを段階的に最適化することで、音声コンテンツに完璧に一致する滑らかでリアルな動きを生成します。
システムを効果的にトレーニングするために、研究チームはDyConvという会話データセットを作成し、200時間以上のリアルな会話ビデオを集めました。ViCoやRealTalkなどの既存の会話データベースと比較して、DyConvは感情表現とビデオ品質において独自の利点を持っています。
バイトダンス社によると、INFPは音声に合わせた唇の動き、個人の顔の特徴の保持、多様な自然な動きの生成など、複数の重要な分野で既存のツールよりも優れた性能を発揮します。さらに、会話者のみのビデオを生成する場合でも優れた性能を示します。
現在INFPは音声入力のみをサポートしていますが、研究チームはシステムを画像やテキストに拡張することを検討しており、将来の目標は人物の全身のリアルなアニメーションを作成することです。しかし、このような技術が偽動画の作成や誤情報の拡散に使用される可能性を考慮し、研究チームはマイクロソフトの高度な音声クローンシステムの管理と同様に、コアテクノロジーを研究機関の使用に限定する予定です。
この技術は、バイトダンス社のより広範なAI戦略の一部であり、同社の主力アプリであるTikTokとCapCutを基盤として、幅広いAIイノベーションの応用プラットフォームを保有しています。
プロジェクト入口:https://grisoon.github.io/INFP/
要点:
🎤 INFPは静止画の人物に音声で「話す」機能を与え、会話の役割を自動的に判断します。
🎥 このシステムは2つのステップで動作します。まず、人間の会話における動きの詳細を抽出し、次に音声を自然な動きパターンに変換します。
📊 バイトダンス社のDyConvデータセットには、200時間以上の高品質な会話ビデオが含まれており、システムのパフォーマンス向上に役立っています。