VideoReTalking
Edição de vídeo baseada em áudio, que permite sincronização labial de alta qualidade.
Produto ComumVídeoÁudioSincronização labial
O VideoReTalking é um novo sistema que edita a face de vídeos de cabeças falantes do mundo real com base em um áudio de entrada, gerando um vídeo de saída com sincronização labial de alta qualidade, mesmo com emoções diferentes. O sistema decompõe essa tarefa em três tarefas consecutivas: (1) geração de um vídeo facial com expressões normalizadas usando uma rede de edição de expressões; (2) sincronização labial baseada em áudio; (3) aprimoramento facial para melhorar o realismo fotográfico. Dado um vídeo de cabeça falante, primeiro usamos uma rede de edição de expressões para modificar a expressão de cada quadro com base no mesmo modelo de expressão, obtendo assim um vídeo com expressões normalizadas. Em seguida, esse vídeo é inserido em uma rede de sincronização labial juntamente com o áudio fornecido, gerando um vídeo com sincronização labial. Finalmente, aprimoramos o realismo fotográfico da face sintética por meio de uma rede de aprimoramento facial sensível à identidade e pós-processamento. Utilizamos métodos baseados em aprendizado para todas as três etapas, e todos os módulos podem ser processados em um pipeline sequencial sem qualquer intervenção do usuário.