AI音频新技术MMAudio：输入视频或文本可自动给视频配音效

近日，来自伊利诺伊大学厄巴纳 - 香槟分校、Sony AI 及 Sony 集团公司的研究团队推出了一项名为 MMAudio 的新技术，该技术旨在通过多模态联合训练，实现高质量的视频到音频合成。

MMAudio 的核心创新在于能够利用视频和文本输入生成同步的音频，从而拓展了音频生成的应用场景，支持输入视频或文本，生成符合视频内容的音效。

MMAudio 的设计使其能够在各种视听和音频文本数据集上进行训练。这种多模态联合训练的方式，不仅提高了合成音频的质量，还确保了生成的音频与视频帧之间的同步。这一同步模块的引入，极大地增强了音频生成的精确度，确保了音频和视频内容的一致性。

目前，MMAudio 的代码库仍在建设中，研究人员表示单个示例推理功能已经可以正常使用，而训练代码则将在后续版本中推出。为了便于用户使用，该技术已在 Ubuntu 操作系统上进行测试，并提供了相关的安装指南。用户需要准备 Python3.9及以上版本，以及适当版本的 PyTorch 和 ffmpeg，随后可以通过简单的命令安装 MMAudio。

MMAudio 在生成音频时仍存在一些局限性，比如偶尔会产生不清晰的语音或背景音乐，同时对某些陌生概念的处理也不够理想。研究团队认为，增加高质量的训练数据能够帮助解决这些问题。随着研究的不断推进，MMAudio 有望在未来进一步优化其性能。

试玩:https://huggingface.co/spaces/hkchengrex/MMAudio

代码:https://github.com/hkchengrex/MMAudio

划重点:
🌟 MMAudio 技术通过多模态联合训练，实现视频与音频的高质量合成。
📦 用户可通过简单安装步骤，在 Ubuntu 上使用 MMAudio 进行音频生成。
⚠️ 当前版本存在一些局限性，但研究团队正致力于通过增加训练数据来改善性能。

AI新闻资讯

AI音频新技术MMAudio：输入视频或文本可自动给视频配音效

AIbase基地

相关AI新闻推荐

AI音频公司确认“三只羊录音门”音频为克隆事件