先日、イリノイ大学アーバナ・シャンペーン校、Sony AI、ソニーグループの研究チームが、多様なモードを統合した学習によって高品質な動画から音声合成を実現する新技術「MMAudio」を発表しました。
MMAudioの最大の革新は、動画とテキストの入力から同期した音声を生成できる点にあります。これにより、音声生成の応用範囲が広がり、動画やテキストを入力して動画の内容に合った効果音を生成することが可能になります。
MMAudioは、様々な視聴覚データと音声テキストデータセットで学習するように設計されています。この多様なモードを統合した学習方法は、合成音声の品質向上だけでなく、生成された音声と動画フレームの同期も保証します。この同期モジュールの導入により、音声生成の精度が大幅に向上し、音声と動画の内容の一貫性が確保されます。
現在、MMAudioのコードベースは開発中です。研究チームによると、単一サンプルの推論機能は既に正常に動作しており、学習コードは今後のバージョンで公開される予定です。ユーザーの利便性のため、Ubuntuオペレーティングシステムでテストが行われ、インストールガイドも提供されています。ユーザーはPython 3.9以降、適切なバージョンのPyTorchとffmpegを用意する必要があります。その後、簡単なコマンドでMMAudioをインストールできます。
MMAudioは音声生成において、音声やBGMが不明瞭になる場合や、一部の未知の概念の処理が不十分な場合など、いくつかの制限があります。研究チームは、高品質な学習データを増やすことでこれらの問題を解決できると考えています。研究の進展に伴い、MMAudioは将来、性能がさらに向上すると期待されます。
試用版:https://huggingface.co/spaces/hkchengrex/MMAudio
コード:https://github.com/hkchengrex/MMAudio
要点:
🌟 MMAudio技術は、多様なモードを統合した学習によって、動画と音声の高品質な合成を実現します。
📦 ユーザーは簡単な手順で、Ubuntu上でMMAudioを使用して音声生成を行うことができます。
⚠️ 現状のバージョンにはいくつかの制限がありますが、研究チームは学習データを増やすことで性能向上に取り組んでいます。