Avatares digitais decolados! Função de sincronização labial do Loopy da ByteDance já está disponível no Jiemong, com correspondência de expressões e emoções de acordo com o contexto

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Sep 23, 2024

2.3k

Lembra-se do Loopy, o novo projeto da ByteDance que impressionou a todos no início do mês? Este projeto de sincronização labial, que faz com que a voz do personagem digital corresponda perfeitamente à imagem, às expressões e às emoções, já está oficialmente disponível no JiMeng.

O AIbase testou e os resultados foram excelentes. Pode-se dizer que é atualmente o melhor serviço de sincronização labial com suporte para chinês.

Anteriormente, os vídeos de sincronização labial costumavam ter um problema comum: embora a boca parecesse sincronizada, a voz parecia não pertencer à pessoa, criando uma sensação de desconexão para o espectador.

O LOOPY, um modelo de difusão de vídeo baseado em áudio desenvolvido em conjunto pela ByteDance e pela equipe de pesquisa da Universidade de Zhejiang, resolveu perfeitamente esse problema.

Ao contrário dos métodos tradicionais de sincronização labial que se limitam ao movimento da boca, o Loopy permite que o personagem em vídeo, ao falar ou cantar, exiba automaticamente o tom, as emoções e as expressões apropriadas para o contexto. Ele pode "controlar" com precisão cada movimento sutil do personagem virtual, como suspiros (movimentos não vocais), movimentos das sobrancelhas e dos olhos impulsionados pelas emoções e movimentos naturais da cabeça.

Atualmente, este recurso já está integrado ao módulo de geração de vídeo do JiMeng, da ByteDance:

O AIbase carregou uma foto de uma garota para testar,

O JiMeng oferece atualmente duas opções de sincronização labial:

1. Leitura de texto

文本朗读.jpg

A operação do JiMeng é bastante simples. Basta carregar a imagem ou o vídeo do personagem que você deseja sincronizar, inserir o texto e selecionar uma voz. O AIbase escolheu uma voz de uma mulher sofisticada e o resultado do teste é o seguinte:

Podemos ver que o personagem apresenta expressões sutis enquanto fala, e os detalhes dinâmicos, como as linhas de expressão, são bastante realistas.

2. Carregar áudio local

Além disso, você não apenas pode fazê-la falar, mas também pode carregar um áudio de uma música e fazê-la cantar:

对口型，图片+本地配音.jpg

O AIbase escolheu um trecho popular do TikTok, o "Festival do Selvagem", para testar o resultado:

O resultado é realmente impressionante. A sincronização labial é perfeita e a voz não causa nenhuma sensação de desconexão, como se fosse a voz original da garota.

No entanto, há um pequeno problema: a foto da garota escolhida pelo AIbase não mostra os olhos voltados para a câmera, o que pode reduzir a imersão. Vou tentar com uma foto frontal:

Ficou muito melhor! Além disso, o personagem fecha os olhos e balança a cabeça de forma realista enquanto canta.

O AIbase também testou uma versão masculina, com o seguinte resultado:

Impressionante, não é? O que mais surpreendeu o AIbase foi que a sincronização labial considera até mesmo mudanças sutis, como a movimentação da garganta e das sobrancelhas, tornando o vídeo ainda mais realista.

Experimente você mesmo!

Acesso ao produto JiMeng: https://top.aibase.com/tool/jimeng

Loopy Sincronização labial ByteDance AIbase

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Sync Labs lança o Lipsync-2: o primeiro modelo de sincronização labial zero-shot do mundo

A empresa de tecnologia de inteligência artificial Sync Labs anunciou recentemente via Twitter o lançamento de seu mais novo produto, o Lipsync-2, considerado o primeiro modelo de sincronização labial zero-shot do mundo. Sem necessidade de treinamento ou ajuste adicional, ele preserva o estilo único do orador. Essa tecnologia inovadora apresenta melhorias significativas em realismo, expressividade, controle, qualidade e velocidade, sendo aplicável a vídeos de pessoas reais, animações e conteúdo gerado por IA. As características inovadoras do Lipsync-2, segundo a Sync Labs,

Apr 8, 2025

Avanço revolucionário em sincronização labial com IA: o novo modelo Mirage da Captions cria vídeos UGC hiper-realistas

Recentemente, o campo da tecnologia de IA testemunhou um grande avanço, com a Captions lançando oficialmente seu novo modelo de IA, Mirage, que revoluciona completamente as tecnologias tradicionais de sincronização labial e geração de vídeo. O Mirage pode analisar scripts ou clipes de áudio e gerar em tempo real vídeos no estilo UGC (conteúdo gerado pelo usuário) com personagens que não existem, com um realismo de expressões faciais e linguagem corporal muito superior às tecnologias anteriores, marcando uma nova era na criação de vídeos com IA. A principal vantagem do Mirage reside em sua capacidade de gerar 'a partir do zero'. Não há necessidade de depender de materiais pré-gravados ou de técnicas tradicionais de sincronização labial.

Mar 13, 2025

HeyGen de código aberto chegou! Heygem: clonagem precisa de aparência e voz com sincronização labial

Mar 10, 2025

ByteDance lança modelo de sincronização labial de código aberto LatentSync, que permite sincronização labial ultrarrealista

Recentemente, a ByteDance lançou uma nova estrutura de sincronização labial chamada LatentSync, projetada para atingir uma sincronização labial mais precisa usando um modelo de difusão potencial condicionado por áudio. A estrutura é baseada no Stable Diffusion e otimizada para consistência temporal. Diferentemente dos métodos anteriores baseados em difusão de espaço de pixels ou geração em duas etapas, o LatentSync usa uma abordagem de ponta a ponta, sem representação de movimento intermediária, capaz de modelar diretamente as relações complexas entre áudio e visual. No LatentSync,

Jan 6, 2025

5.4k

ByteDance lança modelo de IA de código aberto LatentSync para sincronização labial precisa

A ByteDance lançou recentemente uma tecnologia inovadora chamada LatentSync, um framework de sincronização labial de ponta a ponta baseado em um modelo de difusão latente condicionado a áudio. Esta tecnologia permite a sincronização precisa dos movimentos labiais de uma pessoa em um vídeo com o áudio sem nenhuma representação de movimento intermediária. Diferentemente dos métodos de sincronização labial baseados em difusão de espaço de pixels ou geração em duas etapas, o LatentSync aproveita diretamente o poder do Stable Diffusion, modelando de forma mais eficaz as complexas relações audiovisuais. Pesquisa

Jan 6, 2025

6.8k

Boletim Diário de IA: Capacidade de sincronização labial da API da KeLing AI totalmente aberta; Modelo de linguagem grande Doubao afirma alcançar o GPT-4; Palavra-chave de IA da Baidu para 2024, "Resposta"; Modelo de visão Tongyi Qianwen cai em 80%

Bem-vindo ao boletim diário de IA! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos de produtos de IA inovadores. Para conhecer novos produtos de IA, clique aqui: https://top.aibase.com/1. Capacidade de sincronização labial da API KeLing AI totalmente aberta; atualização de prova virtual para o modelo V1.5. A Beijing Kuaishou Technology Co., Ltd. anunciou recentemente que a API KeLing AI concluiu uma nova rodada de atualizações, principalmente na prova virtual e na sincronização labial...

Dec 31, 2024

920

API de sincronização labial e prova virtual da Kling AI totalmente abertas; modelo de prova virtual atualizado para V1.5

A Kuaishou Technology, sediada em Pequim, anunciou recentemente que sua API de modelo de geração de imagem em larga escala, Kling AI (Kling), concluiu uma nova rodada de atualizações de recursos. A API Kling AI atualizada apresenta melhorias significativas em dois recursos principais: prova virtual e sincronização labial, fornecendo suporte técnico mais robusto para clientes nos setores de comércio eletrônico, marketing de publicidade, entretenimento e ferramentas de IA.

Dec 31, 2024

3.1k

Lançamento do PixVerse V3, o grande modelo de geração de vídeo da iQIYI, com suporte para sincronização labial, continuação de histórias e outras funcionalidades

A iQIYI Technology anunciou o lançamento global da versão mais recente de seu grande modelo de geração de vídeo, o PixVerse V3. Esta versão apresenta melhorias significativas nas capacidades do modelo subjacente, oferecendo capacidades de geração multimodais e uma variedade de funcionalidades de IA, incluindo modelos criativos, sincronização labial, continuação de histórias e conversão de estilo.

Oct 29, 2024

9.3k

Boletim Diário de IA: Alibaba lança modelo de documento DocOwl 1.5; Novos recursos do editor de imagens Midjourney serão lançados na próxima semana; Viggle AI lança recurso de sincronização labial

Bem-vindo ao boletim diário de IA! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, com foco em desenvolvedores, para ajudá-lo a entender as tendências tecnológicas e conhecer novos aplicativos de produtos de IA. Para saber mais sobre novos produtos de IA, clique aqui: https://top.aibase.com/1. A lista de registros adicionais inclui o Kuaishou Technology's Keling AI e o Kunlun Wanwei Technologies' Tiangong Imagem, capazes de processar tabelas e gráficos.

Oct 21, 2024

1.1k

D-ID lança ferramenta de tradução de vídeo com IA: clonagem de voz e sincronização labial, com suporte para 30 idiomas

A D-ID lançou recentemente o AI Video Translate, uma ferramenta inovadora de tradução de vídeo com IA que traduz o conteúdo de vídeos para vários idiomas, clona a voz do narrador e ajusta a sincronização labial para garantir que a tradução se alinhe perfeitamente com as imagens. A ferramenta suporta renderização em massa em 29 idiomas e possui uma interface amigável, tornando-a acessível a qualquer pessoa. Com essa tecnologia, a D-ID ajuda os clientes a promover campanhas de marketing, entretenimento e mídia social em todo o mundo, economizando custos de localização. O lançamento dessa tecnologia é um grande avanço para pequenas empresas...

Aug 22, 2024

5.2k

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral