A equipe de pesquisa da ByteDance recentemente desenvolveu um sistema de inteligência artificial chamado OmniHuman, capaz de transformar uma única foto em um vídeo realista, mostrando a pessoa falando, cantando e realizando movimentos naturais. Essa tecnologia inovadora promete revolucionar os setores de entretenimento digital e comunicação.
O OmniHuman consegue gerar vídeos de corpo inteiro, mostrando os gestos e a dinâmica das mãos da pessoa enquanto fala, superando modelos de IA anteriores que só conseguiam animar o rosto ou a parte superior do corpo. O cerne dessa tecnologia reside na combinação de várias entradas, como texto, áudio e movimentos corporais, por meio de um método inovador de treinamento chamado "treinamento totalmente condicional", permitindo que a IA aprenda com um conjunto de dados maior e mais rico.
A equipe de pesquisa destaca que o OmniHuman foi treinado com mais de 18.700 horas de dados de vídeo humano, mostrando um progresso significativo. Ao introduzir vários sinais condicionais (como texto, áudio e postura), essa tecnologia não apenas melhora a qualidade da geração de vídeo, mas também reduz eficazmente o desperdício de dados.
Em um artigo publicado no arXiv, os pesquisadores mencionam que, apesar dos avanços significativos nas tecnologias de ponta a ponta de animação humana nos últimos anos, os métodos existentes ainda apresentam limitações em termos de escalabilidade.
O potencial de aplicação do OmniHuman é vasto, podendo ser usado para criar vídeos de apresentações, demonstrações de instrumentos musicais, etc. Após testes, a tecnologia superou sistemas existentes em vários benchmarks de qualidade, demonstrando seu desempenho excepcional. Esse desenvolvimento ocorre em um contexto de crescente competição na tecnologia de geração de vídeo por IA, com empresas como Google, Meta e Microsoft também buscando tecnologias semelhantes.
No entanto, embora o OmniHuman ofereça a possibilidade de revolucionar a produção de entretenimento, a criação de conteúdo educacional e a comunicação digital, também levanta preocupações sobre o possível mau uso de mídias sintéticas. A equipe de pesquisa apresentará seus resultados em uma próxima conferência de visão computacional, embora a data e o local específicos ainda não tenham sido divulgados.
Artigo:https://arxiv.org/pdf/2502.01061
Destaques:
🌟 OmniHuman é uma nova IA capaz de transformar uma única foto em um vídeo realista de corpo inteiro.
📊 A tecnologia foi treinada com 18.700 horas de dados de vídeo humano, combinando vários sinais de entrada para melhorar a geração de resultados.
⚖️ Apesar de seu vasto potencial de aplicação, também levanta preocupações sobre o possível mau uso de mídias sintéticas.