Tecnologia JoyVASA de Geração de Vídeo Facial Direcionada por Áudio Suporta Personagens de Animais Pequenos

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Nov 25, 2024

275

Recentemente, pesquisadores apresentaram uma nova tecnologia chamada JoyVASA, projetada para melhorar os efeitos de animação de imagem acionados por áudio. Com o desenvolvimento contínuo do aprendizado profundo e dos modelos de difusão, a animação de retratos acionada por áudio fez progressos significativos na qualidade do vídeo e na precisão da sincronização labial. No entanto, a complexidade dos modelos existentes aumentou os problemas de eficiência de treinamento e inferência, limitando também a duração do vídeo e a continuidade entre quadros.

O JoyVASA utiliza um design em duas etapas. Na primeira etapa, é introduzido um framework de representação facial desacoplado, separando as expressões faciais dinâmicas da representação facial tridimensional estática.

Essa separação permite que o sistema combine qualquer modelo facial 3D estático com sequências de movimentos dinâmicos, gerando vídeos de animação mais longos. Na segunda etapa, a equipe de pesquisa treinou um transformador de difusão capaz de gerar sequências de movimentos diretamente a partir de pistas de áudio, independentemente da identidade do personagem. Finalmente, com base no gerador treinado na primeira etapa, a representação facial 3D e a sequência de movimentos gerada são usadas como entrada para renderizar efeitos de animação de alta qualidade.

Vale ressaltar que o JoyVASA não se limita apenas à animação de retratos, mas também pode animar rostos de animais sem problemas. Este modelo foi treinado em um conjunto de dados misto, combinando dados chineses proprietários e dados ingleses públicos, demonstrando uma boa capacidade de suporte multilíngue. Os resultados experimentais comprovam a eficácia deste método. Pesquisas futuras se concentrarão na melhoria do desempenho em tempo real e no refinamento do controle de expressão, expandindo ainda mais as aplicações deste framework na animação de imagens.

O surgimento do JoyVASA marca um avanço importante na tecnologia de animação acionada por áudio, impulsionando novas possibilidades no campo da animação.

Acesso ao projeto: https://jdh-algo.github.io/JoyVASA/

Destaques:
🎨 A tecnologia JoyVASA, através do desacoplamento de expressões faciais e modelos 3D, permite a geração de vídeos de animação mais longos.
🔊 Esta tecnologia é capaz de gerar sequências de movimentos com base em pistas de áudio, possuindo a capacidade dupla de animar personagens e animais.
🌐 O JoyVASA foi treinado em conjuntos de dados chinês e inglês, possuindo suporte multilíngue e oferecendo serviços para usuários globais.

JoyVASA Aprendizado Profundo Áudio-Direcionado Animação de Imagens

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

80% de precisão! Meta desenvolve interface cérebro-computador não invasiva que permite digitar apenas com o pensamento

A gigante de mídia social Meta anunciou recentemente o desenvolvimento de um novo dispositivo capaz de capturar sinais neurais do cérebro para entrada de texto. Esta conquista, detalhada em duas pesquisas conduzidas por cientistas da Meta, utiliza tecnologia avançada de escaneamento cerebral e modelos de IA de aprendizado profundo para decifrar com sucesso os sinais cerebrais durante a digitação, reconstruindo até mesmo frases completas. Especificamente, a tecnologia se baseia em um scanner chamado Magnetoencefalografia (MEG), que capta os fracos sinais magnéticos emitidos pelo cérebro. Ao contrário de métodos que requerem implantação cirúrgica...

Feb 17, 2025

3.3k

Capacidade de computação esgotada! DeepSeek interrompe recargas de API, e preços de dois modelos são ajustados simultaneamente

A DeepSeek divulgou hoje um importante comunicado, informando que, devido à escassez de recursos de servidor, o serviço de recarga de API será suspenso a partir de hoje. A empresa declarou que o saldo de conta existente dos usuários ainda poderá ser usado, mas novas recargas não serão aceitas temporariamente. Simultaneamente, a DeepSeek também anunciou seu plano de ajuste de preços. O período promocional do modelo DeepSeek-chat terminará em 24h do dia 08 de fevereiro de 2025. Após o término da promoção, este modelo terá um novo padrão de preços: tokens de entrada serão cobrados a R$ 2,00 por milhão, e tokens de saída serão cobrados a...

Feb 7, 2025

10.2k

Cursor, assistente de codificação com IA, arrecada US$ 105 milhões em Série B

Recentemente, a Anysphere, focada no desenvolvimento de compiladores de código IA, anunciou que concluiu com sucesso uma rodada de financiamento Série B de US$ 105 milhões. Esta rodada de financiamento contou com a participação de várias instituições de investimento de primeira linha, incluindo Thrive Capital, Andreessen Horowitz (a16z) e Benchmark, marcando um avanço significativo para o compilador Cursor em termos de inovação tecnológica e expansão de mercado. Desde seu lançamento, o compilador Cursor se destaca por sua singularidade...

Jan 20, 2025

3.7k

Suno lança vídeo de demonstração de áudio do modelo de geração de música V4, com melhorias significativas na qualidade e estilo do som

Recentemente, a empresa Suno lançou amostras de áudio de seu mais recente modelo de geração de música V4. Essas demonstrações de áudio mostram melhorias significativas na qualidade do som, na variedade de tons e na consistência em comparação com versões anteriores. O modelo V4 da Suno foi treinado usando aprendizado profundo em um grande conjunto de dados de música, com o objetivo de gerar obras musicais mais naturais e ricas. Em comparação com versões anteriores, o modelo V4 apresenta um desempenho superior na síntese de áudio, capaz de produzir músicas mais expressivas e aumentar a expressão emocional da música. Ao ouvir as amostras, os ouvintes podem notar uma melhoria significativa...

Nov 11, 2024

4.8k

Baidu e Instituto de Pesquisa de Inteligência Artificial de Pequim (Beijing Zhiyuan Artificial Intelligence Research Institute) firmam acordo estratégico para colaborar em grandes modelos de linguagem e outras áreas

A Beijing Baidu Netcom Science & Technology Co., Ltd. e o Beijing Zhiyuan Artificial Intelligence Research Institute anunciaram hoje a assinatura oficial de um acordo de cooperação estratégica. As duas partes irão colaborar profundamente em áreas como grandes modelos de linguagem, construindo em conjunto um ecossistema de produção e pesquisa em inteligência artificial. Desde 2010, a Baidu tem se dedicado à inteligência artificial, sendo uma das poucas empresas do mundo com um layout completo de IA, abrangendo desde o chip Kunlun, a plataforma de aprendizado profundo PaddlePaddle, o modelo de linguagem Wenxin até aplicações.

Sep 24, 2024

1.2k

SuperAnimal: Modelo de aprendizado profundo para análise automática de comportamento animal

SuperAnimal é um modelo revolucionário de aprendizado profundo desenvolvido por uma equipe do Instituto Federal de Tecnologia de Lausanne (EPFL) que detecta e analisa automaticamente o comportamento locomotor de animais, incluindo mais de 45 animais reais e fictícios. O cerne dessa tecnologia reside na sua capacidade de identificar e rastrear automaticamente os pontos-chave do movimento animal sem necessidade de anotação manual, o que permite a aquisição de dados de comportamento animal de forma muito mais eficiente. Com base nesses pontos-chave, o SuperAnimal pode realizar análises posturais detalhadas, ajudando-nos a compreender os padrões de comportamento animal e a obter insights mais profundos.

Jul 3, 2024

1.9k

Entrevista com Yann LeCun, vencedor do Prêmio Turing: IA não 'conquistará' a humanidade, mas assumirá a maior parte das interações

'Sistemas de IA, em certa medida, democratizarão a criatividade, podendo escrever textos fluentes, mas sem graça.' 'No futuro, as interações humanas com o mundo digital, bem como as interações entre pessoas, serão mediadas por sistemas de IA.' 'IA open source é essencial. Sistemas de IA não devem ser controlados por poucas empresas.' 'LeCun não acredita em uma IA geral. Diferentes entidades de IA possuem diferentes habilidades.' 'Estabelecer metas é a única maneira de garantir a segurança dos sistemas de IA. Esta é uma arquitetura totalmente nova.'

Dec 27, 2023

600

Resumo dos avanços da IA do Google DeepMind em 2023

Lançamentos de produtos incluem o modelo de linguagem PaLM 2, mecanismo de busca gerativa e o modelo multimodal Gemini. Avanços tecnológicos em Transformer visual, raciocínio de múltiplas etapas e desenvolvimento de software. Novas descobertas em pesquisa nas áreas de previsão climática, saúde e computação quântica. Lançamento de ferramentas de depuração de IA e conjuntos de dados para impulsionar a colaboração do setor. O aprendizado profundo do Google continua a progredir e promete ainda mais inovações.

Dec 25, 2023

720

Google DeepMind descobre 2,2 milhões de novos materiais usando aprendizado profundo

Cientistas do Google DeepMind desenvolveram com sucesso a estrutura GNoME, alcançando resultados significativos em ciência de materiais por meio do aprendizado profundo. O GNoME emprega redes neurais gráficas e métodos de aprendizado ativo, prevendo com sucesso a energia de formação de mais de 2,2 milhões de novos materiais. Essa descoberta não apenas oferece possibilidades para inovações tecnológicas, mas também demonstra o enorme potencial do aprendizado de máquina na ciência de materiais. 380.000 dos materiais mais estáveis descobertos pela estrutura GNoME já são fortes candidatos para síntese experimental. A pesquisa...

Nov 30, 2023

760

Equipe de Ma Yi apresenta nova estrutura de Transformer de caixa branca, CRATE, desbloqueando a explicabilidade do aprendizado profundo

A equipe de Ma Yi, de instituições como UC Berkeley e HKU, apresentou a estrutura de Transformer de caixa branca CRATE, que realiza uma representação eficaz comprimindo dados de alta dimensão em estruturas de baixa dimensão. O CRATE aumenta significativamente a explicabilidade enquanto mantém o desempenho do modelo, resolvendo problemas de segurança em modelos grandes. A pesquisa revela que a essência do aprendizado profundo pode ser a compressão, e os resultados experimentais do CRATE mostram que ele é mais explicável do que o Transformer padrão. Esta pesquisa preenche a lacuna entre a teoria e a prática do aprendizado profundo.

Nov 27, 2023

1.8k

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral