Recentemente, a ByteDance anunciou o lançamento de um sistema de inteligência artificial chamado INFP, capaz de fazer com que retratos estáticos de pessoas “falem” e reajam a partir de entrada de áudio. Diferentemente das tecnologias tradicionais, o INFP não requer a especificação manual dos personagens que falam e escutam; o sistema identifica os personagens automaticamente com base no fluxo da conversa.
O fluxo de trabalho do INFP é dividido em duas etapas principais. A primeira, chamada de “imitação de cabeça baseada em movimento”, envolve a análise das expressões faciais e movimentos da cabeça das pessoas durante uma conversa, extraindo detalhes de vídeos. Esses dados de movimento são convertidos em um formato utilizável para animação subsequente, permitindo que fotos estáticas correspondam aos movimentos da pessoa original.
A segunda etapa é a “geração de movimento guiada por áudio”, onde o sistema gera padrões de movimento naturais com base na entrada de áudio. A equipe de pesquisa desenvolveu um “guia de movimento”, uma ferramenta que analisa o áudio de ambos os lados da conversa para criar padrões de movimento para falar e ouvir. Em seguida, um componente de IA chamado transformador de difusão otimiza gradualmente esses padrões, gerando movimentos suaves e realistas que se encaixam perfeitamente no conteúdo de áudio.
Para treinar o sistema de forma eficaz, a equipe de pesquisa também criou um conjunto de dados de conversas chamado DyConv, que reúne mais de 200 horas de vídeos de conversas reais. Comparado a bancos de dados de conversas existentes (como ViCo e RealTalk), o DyConv apresenta vantagens únicas em termos de expressão emocional e qualidade de vídeo.
A ByteDance afirma que o INFP supera as ferramentas existentes em várias áreas-chave, especialmente no que diz respeito ao movimento labial correspondente à fala, à preservação das características faciais individuais e à criação de movimentos naturais e diversificados. Além disso, o sistema também se destaca na geração de vídeos com apenas o ouvinte.
Embora o INFP atualmente suporte apenas entrada de áudio, a equipe de pesquisa está explorando a possibilidade de expandir o sistema para imagens e texto. O objetivo futuro é criar animações realistas de corpo inteiro. No entanto, considerando que essa tecnologia pode ser usada para criar vídeos falsos e espalhar informações incorretas, a equipe de pesquisa planeja restringir o uso da tecnologia principal a instituições de pesquisa, semelhante à forma como a Microsoft gerencia seu sistema avançado de clonagem de voz.
Essa tecnologia faz parte da estratégia de IA mais ampla da ByteDance. Com aplicativos populares como TikTok e CapCut, a ByteDance possui uma ampla plataforma para aplicações inovadoras de IA.
Entrada do projeto:https://grisoon.github.io/INFP/
Destaques:
🎤 O INFP permite que retratos estáticos “falem” por meio de áudio, identificando automaticamente os personagens na conversa.
🎥 O sistema funciona em duas etapas: primeiro, extrai detalhes de movimento de conversas humanas; segundo, converte áudio em padrões de movimento naturais.
📊 O conjunto de dados DyConv da ByteDance contém mais de 200 horas de vídeos de conversas de alta qualidade, ajudando a melhorar o desempenho do sistema.