Recientemente, un equipo de investigación de la Universidad de Illinois Urbana-Champaign, Sony AI y Sony Corporation presentó una nueva tecnología llamada MMAudio, diseñada para lograr la síntesis de audio a video de alta calidad mediante entrenamiento multi-modal conjunto.
La innovación central de MMAudio radica en su capacidad para utilizar entradas de video y texto para generar audio sincronizado, expandiendo así las aplicaciones de generación de audio. Permite la entrada de video o texto para generar efectos de sonido que se ajustan al contenido del video.
MMAudio está diseñado para entrenarse en diversos conjuntos de datos de audio-visuales y de texto-audio. Este método de entrenamiento conjunto multi-modal no solo mejora la calidad del audio sintetizado, sino que también garantiza la sincronización entre el audio generado y los fotogramas de video. La inclusión de este módulo de sincronización mejora en gran medida la precisión de la generación de audio, asegurando la coherencia entre el audio y el contenido del video.
Actualmente, el repositorio de código de MMAudio aún está en construcción. Los investigadores indican que la función de inferencia de ejemplos individuales ya funciona correctamente, mientras que el código de entrenamiento se lanzará en versiones posteriores. Para facilitar su uso, la tecnología se ha probado en el sistema operativo Ubuntu y se proporciona una guía de instalación. Los usuarios necesitan Python 3.9 o superior, versiones adecuadas de PyTorch y ffmpeg, y luego pueden instalar MMAudio con un simple comando.
MMAudio todavía presenta algunas limitaciones en la generación de audio, como la producción ocasional de voz o música de fondo poco claras, y un manejo menos que ideal de algunos conceptos desconocidos. El equipo de investigación considera que el aumento de datos de entrenamiento de alta calidad ayudará a resolver estos problemas. Con el avance de la investigación, se espera que MMAudio optimice aún más su rendimiento en el futuro.
Prueba: https://huggingface.co/spaces/hkchengrex/MMAudio
Código: https://github.com/hkchengrex/MMAudio
Puntos clave:
🌟 La tecnología MMAudio logra la síntesis de alta calidad de video y audio mediante entrenamiento conjunto multi-modal.
📦 Los usuarios pueden generar audio con MMAudio en Ubuntu mediante sencillos pasos de instalación.
⚠️ La versión actual presenta algunas limitaciones, pero el equipo de investigación está trabajando para mejorar el rendimiento mediante el aumento de los datos de entrenamiento.