MEMOは、音声駆動による動画生成のための高度なオープンウェイトモデルです。このモデルは、メモリガイド付き時間モジュールと感情認識音声モジュールにより、長期的な同一性の一貫性とモーションの滑らかさを向上させると同時に、音声内の感情を検出して表情を調整することで、同一性の一貫性があり表情豊かな動画を生成します。MEMOの主な利点には、よりリアルな動画生成、音声と唇の同期性の向上、同一性の一貫性、および表情感情の整合性があります。技術的背景情報によると、MEMOは様々な画像と音声の種類において、よりリアルな動画を生成し、既存の最先端手法を凌駕しています。