Recentemente, uma equipe de pesquisa da Universidade de Illinois Urbana-Champaign, Sony AI e Sony Corporation lançou uma nova tecnologia chamada MMAudio, projetada para realizar a síntese de vídeo para áudio de alta qualidade por meio de treinamento conjunto multimodal.
A inovação central do MMAudio reside em sua capacidade de usar vídeo e entrada de texto para gerar áudio sincronizado, expandindo assim os cenários de aplicação da geração de áudio. Ele suporta a entrada de vídeo ou texto para gerar efeitos sonoros que correspondem ao conteúdo do vídeo.
O MMAudio foi projetado para ser treinado em vários conjuntos de dados de áudio-visual e texto-áudio. Esse método de treinamento conjunto multimodal não apenas melhora a qualidade do áudio sintetizado, mas também garante a sincronização entre o áudio gerado e os quadros de vídeo. A introdução desse módulo de sincronização aumenta significativamente a precisão da geração de áudio, garantindo a consistência entre o conteúdo de áudio e vídeo.
Atualmente, o repositório de código do MMAudio ainda está em construção. Os pesquisadores afirmam que a função de inferência de exemplo único já está funcionando corretamente, enquanto o código de treinamento será lançado em versões posteriores. Para facilitar o uso, a tecnologia já foi testada no sistema operacional Ubuntu e um guia de instalação está disponível. Os usuários precisam preparar o Python 3.9 ou superior, bem como versões apropriadas do PyTorch e ffmpeg, e então podem instalar o MMAudio com um simples comando.
O MMAudio ainda apresenta algumas limitações na geração de áudio, como a produção ocasional de fala ou música de fundo pouco claras, e também um processamento menos ideal de alguns conceitos desconhecidos. A equipe de pesquisa acredita que o aumento de dados de treinamento de alta qualidade pode ajudar a resolver esses problemas. Com o avanço da pesquisa, espera-se que o MMAudio otimize ainda mais seu desempenho no futuro.
Experimente: https://huggingface.co/spaces/hkchengrex/MMAudio
Código: https://github.com/hkchengrex/MMAudio
Destaques:
🌟 A tecnologia MMAudio realiza a síntese de alta qualidade de vídeo e áudio por meio de treinamento conjunto multimodal.
📦 Os usuários podem gerar áudio usando o MMAudio no Ubuntu com etapas de instalação simples.
⚠️ A versão atual apresenta algumas limitações, mas a equipe de pesquisa está trabalhando para melhorar o desempenho adicionando mais dados de treinamento.