Video-Foley

動画と音声の同期生成システム

一般製品生産性動画音声合成自己教師あり学習
Video-Foleyは、革新的な動画から音声生成システムです。二乗平均平方根(RMS)を時間イベント条件として使用し、意味的音色プロンプト(音声またはテキスト)を組み合わせることで、高い制御性と同期性を備えた動画音声合成を実現します。本システムは、アノテーション不要の自己教師あり学習フレームワークを採用しており、Video2RMSとRMS2Soundの2段階から構成されています。RMS離散化やRMS-ControlNetなどの斬新な概念を取り入れ、事前学習済みのテキスト音声モデルと統合しています。Video-Foleyは、音声の時間、強度、音色、ディテールの音動画の整合性と制御において、最先端の性能を達成しています。
ウェブサイトを開く

Video-Foley 代替品