Recentemente, uma nova tecnologia chamada INFP (Interactive, Natural, Flash and Person-generic) tem chamado a atenção. Seu objetivo é resolver o problema da interação insuficiente em diálogos entre duas pessoas com avatares virtuais de IA, permitindo que personagens virtuais ajustem dinamicamente suas expressões e movimentos de acordo com o conteúdo da conversa, como seres humanos.

image.png

Adeus ao "stand-up comedy" solo, olá ao "dueto"!

Avatares de IA anteriores, ou só conseguiam falar sozinhos, como um comediante de "stand-up comedy" solo, ou apenas escutavam passivamente, sem feedback algum, como "bonecos de madeira". Mas as conversas humanas não são assim! Quando falamos, olhamos para o interlocutor, acenamos com a cabeça, franzimos a testa, até fazemos piadas – essa é a verdadeira interação!

A INFP veio para mudar essa situação desconfortável! É como um maestro de "dueto", capaz de ajustar dinamicamente as expressões e movimentos do avatar de IA com base no áudio da conversa entre você e a IA, dando a sensação de estar conversando com uma pessoa real!

Os "segredos" da INFP: dois truques essenciais!

A INFP é tão poderosa graças a seus dois "segredos":

Mestre em Imitação de Movimento (Motion-Based Head Imitation):

Ela aprende expressões e movimentos humanos a partir de uma grande quantidade de vídeos de conversas reais, como um "mestre em imitação de movimento", comprimindo esses comportamentos complexos em "códigos de movimento".

Para tornar os movimentos mais realistas, ela se concentra especialmente nos olhos e na boca, os "responsáveis pelas expressões", como se estivesse usando uma "câmera close-up".

Ela também usa pontos-chave faciais para auxiliar na geração de expressões, garantindo precisão e naturalidade nos movimentos.

Em seguida, aplica esses "códigos de movimento" a um avatar estático, dando vida ao avatar instantaneamente, como mágica!

Gerador de Movimento Guiado por Áudio (Audio-Guided Motion Generation):

Este "gerador" é ainda mais impressionante, pois consegue entender o áudio da conversa entre você e a IA, como um especialista em "localização sonora".

Ele analisa o áudio para identificar quem está falando e quem está ouvindo, ajustando dinamicamente o estado do avatar de IA, permitindo a alternância entre "falar" e "ouvir" sem intervenção manual.

Ele também possui dois "bancos de dados", armazenando movimentos para "falar" e "ouvir", como dois "baús do tesouro", prontos para fornecer os movimentos mais adequados.

Ele também ajusta o humor e a atitude do avatar de IA de acordo com o seu estilo de voz, tornando a conversa mais animada e interessante.

Por fim, ele usa uma técnica chamada "modelo de difusão" para transformar esses movimentos em animações suaves e naturais, sem travamentos.

DyConv: um conjunto de dados de conversas gigantesco e cheio de "fofocas"!

Para treinar essa "super IA" INFP, os pesquisadores coletaram um conjunto de dados de conversas em grande escala, chamado DyConv!

Este conjunto de dados contém mais de 200 horas de vídeos de conversas, com pessoas de todos os lugares, discutindo os mais diversos assuntos – um verdadeiro "centro de fofocas".

A qualidade dos vídeos do conjunto de dados DyConv é muito alta, garantindo a clareza dos rostos de todos.

Os pesquisadores também usaram um modelo de separação de voz de última geração para extrair individualmente a voz de cada pessoa, facilitando o aprendizado da IA.

As "diversas habilidades" da INFP: não só conversa, mas também...

A INFP não só se destaca em diálogos entre duas pessoas, mas também brilha em outros cenários:

Modo "escuta" (Listening Head Generation): ela pode fazer expressões e movimentos correspondentes ao conteúdo da fala do interlocutor, como um "bom aluno" que presta atenção.

Modo "papagaio" (Talking Head Generation): ela pode fazer o avatar reproduzir movimentos labiais realistas com base no áudio, como um mestre em "imitador de sons".

Para demonstrar a potência da INFP, os pesquisadores realizaram diversos experimentos, mostrando que:

Em vários indicadores, a INFP superou outros métodos semelhantes, obtendo resultados excelentes em qualidade de vídeo, sincronização labial e diversidade de movimentos.

Em termos de experiência do usuário, os participantes concordaram que os vídeos gerados pela INFP são mais naturais, vívidos e apresentam melhor correspondência com o áudio.

Os pesquisadores também realizaram experimentos de ablação, demonstrando que cada módulo da INFP é essencial.

Endereço do projeto: https://grisoon.github.io/INFP/