Lembra-se do Loopy, o novo projeto da ByteDance que impressionou a todos no início do mês? Este projeto de sincronização labial, que faz com que a voz do personagem digital corresponda perfeitamente à imagem, às expressões e às emoções, já está oficialmente disponível no JiMeng.

111.jpg

O AIbase testou e os resultados foram excelentes. Pode-se dizer que é atualmente o melhor serviço de sincronização labial com suporte para chinês.

Anteriormente, os vídeos de sincronização labial costumavam ter um problema comum: embora a boca parecesse sincronizada, a voz parecia não pertencer à pessoa, criando uma sensação de desconexão para o espectador.

O LOOPY, um modelo de difusão de vídeo baseado em áudio desenvolvido em conjunto pela ByteDance e pela equipe de pesquisa da Universidade de Zhejiang, resolveu perfeitamente esse problema.

image.png

Ao contrário dos métodos tradicionais de sincronização labial que se limitam ao movimento da boca, o Loopy permite que o personagem em vídeo, ao falar ou cantar, exiba automaticamente o tom, as emoções e as expressões apropriadas para o contexto. Ele pode "controlar" com precisão cada movimento sutil do personagem virtual, como suspiros (movimentos não vocais), movimentos das sobrancelhas e dos olhos impulsionados pelas emoções e movimentos naturais da cabeça.

Atualmente, este recurso já está integrado ao módulo de geração de vídeo do JiMeng, da ByteDance:

O AIbase carregou uma foto de uma garota para testar,

O JiMeng oferece atualmente duas opções de sincronização labial:

1. Leitura de texto

文本朗读.jpg

A operação do JiMeng é bastante simples. Basta carregar a imagem ou o vídeo do personagem que você deseja sincronizar, inserir o texto e selecionar uma voz. O AIbase escolheu uma voz de uma mulher sofisticada e o resultado do teste é o seguinte:

Podemos ver que o personagem apresenta expressões sutis enquanto fala, e os detalhes dinâmicos, como as linhas de expressão, são bastante realistas.

2. Carregar áudio local

Além disso, você não apenas pode fazê-la falar, mas também pode carregar um áudio de uma música e fazê-la cantar:

对口型,图片+本地配音.jpg

O AIbase escolheu um trecho popular do TikTok, o "Festival do Selvagem", para testar o resultado:

O resultado é realmente impressionante. A sincronização labial é perfeita e a voz não causa nenhuma sensação de desconexão, como se fosse a voz original da garota.

No entanto, há um pequeno problema: a foto da garota escolhida pelo AIbase não mostra os olhos voltados para a câmera, o que pode reduzir a imersão. Vou tentar com uma foto frontal:

Ficou muito melhor! Além disso, o personagem fecha os olhos e balança a cabeça de forma realista enquanto canta.

O AIbase também testou uma versão masculina, com o seguinte resultado:

Impressionante, não é? O que mais surpreendeu o AIbase foi que a sincronização labial considera até mesmo mudanças sutis, como a movimentação da garganta e das sobrancelhas, tornando o vídeo ainda mais realista.

Experimente você mesmo!

Acesso ao produto JiMeng: https://top.aibase.com/tool/jimeng