Sync Labs lança o Lipsync-2: o primeiro modelo de sincronização labial zero-shot do mundo

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Apr 8, 2025

A empresa de tecnologia de inteligência artificial Sync Labs anunciou recentemente no Twitter o lançamento de seu mais novo produto, o Lipsync-2, um modelo descrito como o "primeiro modelo de sincronização labial zero-shot do mundo". Ele preserva o estilo único do orador sem treinamento ou ajuste adicional. Essa tecnologia inovadora apresenta melhorias significativas em realismo, expressividade, controle, qualidade e velocidade, sendo adequada para vídeos com atores reais, animações e conteúdo gerado por IA.

Recursos inovadores do Lipsync-2

De acordo com a mensagem do Twitter da Sync Labs de 1º de abril, o principal destaque do Lipsync-2 é sua capacidade "zero-shot". Isso significa que, sem pré-treinamento para um orador específico, o modelo pode aprender e gerar instantaneamente efeitos de sincronização labial que correspondem ao estilo de fala único do orador. Esse recurso revoluciona as tecnologias tradicionais de sincronização labial, que exigem grandes quantidades de dados de treinamento, permitindo que os criadores de conteúdo utilizem a tecnologia de forma mais eficiente.

Além disso, a Sync Labs revelou que o Lipsync-2 alcançou um avanço tecnológico em várias dimensões. Seja em vídeos com atores reais, personagens de animação ou personagens gerados por IA, o Lipsync-2 oferece maior realismo e expressividade.

Novo recurso de controle: parâmetro de temperatura

Além da capacidade zero-shot, o Lipsync-2 introduz um recurso de controle chamado "temperatura". Esse parâmetro permite que os usuários ajustem o nível de expressividade da sincronização labial, desde efeitos de sincronização naturais e discretos até efeitos mais expressivos e exagerados, atendendo às necessidades de diferentes cenários. Atualmente, esse recurso está em fase de teste privado e está sendo gradualmente disponibilizado para usuários pagos.

Perspectivas de aplicação: educação multilíngue e criação de conteúdo

Em uma postagem no Twitter de 3 de abril, a Sync Labs mostrou cenários de aplicação potenciais do Lipsync-2, afirmando que ele "apresenta excelente desempenho em precisão, estilo e expressividade" e apresentando a visão de "tornar cada palestra acessível em todos os idiomas". Essa tecnologia pode ser usada não apenas para tradução de vídeo e edição de nível de caracteres, mas também para reanimação de personagens e até mesmo para conteúdo gerado pelo usuário (UGC) de IA realista, trazendo mudanças revolucionárias para os setores de educação, entretenimento e marketing.

Reação do setor e expectativas futuras

O lançamento do Lipsync-2 rapidamente chamou a atenção do setor. A Sync Labs afirma que o modelo já está disponível para testes na plataforma fal, e os usuários podem acessá-lo na biblioteca de modelos do fal. Desde o anúncio em 1º de abril, as discussões sobre o Lipsync-2 no Twitter têm aumentado, e muitos usuários expressaram expectativa sobre seu potencial de aplicação em diferentes áreas.

Como empresa pioneira em tecnologia de vídeo de inteligência artificial, a Sync Labs, com o Lipsync-2, demonstra mais uma vez sua liderança em inovação. Com a gradual popularização dessa tecnologia, o limiar para a criação de conteúdo pode ser ainda mais reduzido, enquanto o público poderá desfrutar de uma experiência audiovisual mais natural e imersiva.

zero-shot Lipsync-2 modelo de sincronização labial SyncLabs

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Tavus lança o modelo de sincronização labial SOTA Hummingbird-0: revolucionando a sincronização labial de amostra zero

Recentemente, a Tavus, empresa de pesquisa de vídeo com IA, lançou oficialmente seu mais recente modelo de sincronização labial de amostra zero, Hummingbird-0, considerado a tecnologia de sincronização labial mais avançada atualmente (State-of-the-Art, SOTA). O modelo já está disponível para visualização de pesquisa na plataforma Tavus, API e FAL, gerando grande interesse no campo da criação de conteúdo de IA. O avanço inovador da sincronização labial de amostra zero Hummingbird-0 é baseado no modelo principal Phoenix da Tavus—

Apr 25, 2025

ByteDance lança modelo de sincronização labial de código aberto LatentSync, que permite sincronização labial ultrarrealista

Recentemente, a ByteDance lançou uma nova estrutura de sincronização labial chamada LatentSync, projetada para atingir uma sincronização labial mais precisa usando um modelo de difusão potencial condicionado por áudio. A estrutura é baseada no Stable Diffusion e otimizada para consistência temporal. Diferentemente dos métodos anteriores baseados em difusão de espaço de pixels ou geração em duas etapas, o LatentSync usa uma abordagem de ponta a ponta, sem representação de movimento intermediária, capaz de modelar diretamente as relações complexas entre áudio e visual. No LatentSync,

Jan 6, 2025

5.5k

OuteTTS-0.1-350M: Um novo método de síntese de texto para fala com clonagem de voz zero-shot

Recentemente, a Oute AI lançou um novo método de síntese de texto para fala chamado OuteTTS-0.1-350M. Este método utiliza modelagem de linguagem pura, sem adaptadores externos ou arquiteturas complexas, oferecendo um método TTS simplificado. O OuteTTS-0.1-350M é baseado na arquitetura LLaMa e usa o WavTokenizer para gerar tokens de áudio diretamente, tornando o processo mais eficiente. O modelo possui a capacidade de clonagem de voz zero-shot, necessitando apenas alguns segundos de áudio de referência.

Nov 6, 2024

3.0k

Nova tecnologia de clonagem de voz do Google: clone vozes com apenas alguns segundos de amostra de áudio

No mundo de rápida evolução da tecnologia, a síntese de voz também está avançando, especialmente na área de recuperação de vozes perdidas. Recentemente, pesquisadores do Google propuseram uma nova tecnologia chamada "conversão de voz zero-shot", que pode ser combinada diretamente com sistemas de texto para fala (TTS) de última geração para ajudar pessoas que perderam suas vozes devido a doenças ou acidentes a recuperar suas "memórias sonoras". O cerne desta tecnologia reside na capacidade "zero-shot", o que significa que não precisamos de uma grande quantidade de amostras para implementá-la.

Sep 25, 2024

4.2k

Dubladores em perigo! O modelo de clonagem de voz VALL-E 2 da Microsoft atinge nível profissional

A Microsoft lançou recentemente o VALL-E 2, um modelo de texto para fala (TTS) de amostra zero, que gerou grande discussão no meio tecnológico e é considerado um marco no campo de TTS. A inovação do VALL-E 2 reside em sua capacidade de aprendizado zero-shot; com apenas um pequeno fragmento de amostra de voz desconhecida, ele consegue imitar a voz para dizer qualquer texto, alcançando uma imitação instantânea e agrupamento de codificadores impressionantes. Ele também aprimorou a amostragem com percepção de repetição, melhorando a estabilidade da decodificação e simplificando as necessidades de dados. Em testes de pontuação subjetiva e indicadores objetivos, o VALL-E 2 superou modelos anteriores.

Jul 24, 2024

3.4k

Atualização do Funcionário Digital de IA Xiaoice: Lançamento de nova tecnologia "zero-shot" e base de modelo massivo de mais de 100 bilhões

O último lançamento da empresa Xiaoice marca uma atualização significativa em seus produtos de funcionários digitais de IA, adicionando a tecnologia de pessoa digital "zero-shot" (Zero-shot Xiaoice Neural Rendering, Zero-XNR), uma base de modelo massivo de mais de 100 bilhões e um sistema de transmissão multimídia de alta energia, melhorando significativamente a qualidade e o efeito da interação em tempo real. A tecnologia Zero-XNR, combinada com o modelo de voz TTS e equipada com uma estrutura de agrupamento eficiente, realiza a replicação de voz e imagem de alta qualidade em segundos. A base do modelo massivo e a estrutura de construção do agente são fortes...

Jul 17, 2024

2.4k

Synclabs lança o modelo de sincronização labial Sync-1.6.0, reduzindo o efeito de piscar

A Synclabs lançou a versão mais recente do seu modelo de sincronização labial, o Sync-1.6.0, que gera sincronização labial suave e precisa. O novo modelo reduz o efeito de piscar entre os quadros de vídeo, proporcionando uma experiência de áudio e vídeo mais natural. Os usuários podem experimentar o Sync-1.6.0 por meio de uma interface de navegador ou API, simplificando o fluxo de trabalho de produção de áudio e vídeo. O Sync-1.6.0 aprimora a precisão da sincronização labial e a qualidade do vídeo, fornecendo aos usuários uma aparência mais realista. O lançamento deste modelo trará mais possibilidades para os setores de mídia digital e entretenimento.

Mar 25, 2024

3.7k

OpenGraph de código aberto da HKU: superando desafios de modelos básicos de grafos e alcançando um modelo de grafo universal multidomínio

A Universidade de Hong Kong lançou o OpenGraph, superando com sucesso três grandes desafios no campo dos modelos básicos de grafos e alcançando a aprendizagem de zero-shot. O OpenGraph constrói um modelo de grafo universal através da unificação do Tokenizador de Grafos, do Transformer de Grafos escalável e da destilação do conhecimento do modelo de linguagem de grande porte. Experimentos comprovam a superioridade do OpenGraph na previsão entre conjuntos de dados e no design do Tokenizador de Grafos, e a eficácia do método de destilação do conhecimento baseado em LLM. O OpenGraph preenche uma lacuna nos modelos básicos de grafos

Mar 15, 2024

600

Primeiro robô humanoide movido a GPT-4! Sem programação + aprendizado zero-shot, e ainda ajusta o comportamento de acordo com o feedback verbal

‘Fazer o GPT-4 controlar um robô humanoide, sem programação ou treinamento prévio, que resultado dá? A resposta é: muito curioso!’ ‘O robô congela o sorriso, balançando a cabeça e se inclinando para trás em um gesto de ‘constrangimento.’ ‘Expressões faciais distorcidas, movimentos estranhos, mas todas as ações correspondem à solicitação. Um robô humanoide controlado pelo GPT-4 já é algo incrível.

Dec 13, 2023

790

Novo modelo de IA KOSMOS-G: geração de imagens de alta fidelidade com zero-shot

Recentemente, a tecnologia de geração de imagens avançou significativamente. O KOSMOS-G é um novo modelo de IA de LLMs multimodais que pode gerar imagens detalhadas a partir de descrições de texto e várias imagens, mesmo em cenários de zero-shot. A estratégia de treinamento do KOSMOS-G inclui várias etapas, permitindo a geração de imagens de zero-shot excepcional através do treinamento em diferentes fases. Essa tecnologia tem o potencial de substituir o CLIP em sistemas de geração de imagens, expandindo as aplicações inovadoras da geração de imagens na combinação de informações de texto e visuais. O KOSMOS-G representa...

Oct 12, 2023

620

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral