Meta lança MarDini, um novo modelo de geração de vídeo para preencher quadros ausentes

Recentemente, o Meta, em colaboração com a King Abdullah University of Science and Technology (KAUST) da Arábia Saudita, lançou uma nova série de modelos de difusão de vídeo — MarDini. Este modelo torna a criação de vídeos de alta qualidade mais simples e flexível, permitindo diversas tarefas, como preencher quadros ausentes em vídeos, transformar uma única imagem em uma cena dinâmica e até mesmo estender clipes curtos adicionando quadros contínuos naturais.

Construindo sobre o trabalho do ano passado, o Meta intensificou seus esforços na área de geração de vídeos de IA. Anteriormente, lançou modelos de texto para vídeo e edição, como Emu Video e Emu Edit. Este ano, antes do lançamento do MarDini, também lançou o Movie Gen, um editor de vídeo avançado. Isso demonstra o compromisso do Meta em fornecer ferramentas mais poderosas para criadores de vídeo.

A força do MarDini reside em sua capacidade de gerar vídeo a partir de um número arbitrário de quadros de máscara, suportando várias tarefas de geração, como interpolação de vídeo, conversão de imagem para vídeo e extensão de vídeo.

Resultado de Imagem para Vídeo

Uma das principais aplicações do MarDini é a geração de vídeo a partir de imagem. Essa funcionalidade é demonstrada usando um quadro de referência colocado no meio como entrada condicional e gerando 16 quadros adicionais. No exemplo de vídeo oficial gerado, são 17 quadros renderizados a 8 FPS, resultando em um vídeo fluido de 2 segundos.

Resultado de Extensão de Vídeo

O MarDini também pode estender vídeos ajustando vídeos existentes de qualquer duração. Demonstramos isso gerando uma extensão de 2 segundos a partir de um vídeo de referência de 5 quadros, adicionando 12 novos quadros a cada sequência.

Resultado de Interpolação de Vídeo

O MarDini realiza a interpolação de vídeo gerando quadros intermediários usando o primeiro e o último quadro como sinais de condicionamento. Quando esses quadros de limite são os mesmos, o MarDini pode criar vídeos em loop contínuo.

O funcionamento do MarDini é bastante interessante. Ele emprega uma técnica de geração de vídeo avançada e eficiente, composta principalmente por duas partes: um modelo de planejamento e um modelo de geração. Primeiro, o modelo de planejamento usa o método de auto-regressão mascarada (MAR) para interpretar os quadros de entrada de baixa resolução e gerar um sinal guia para os quadros a serem criados. Em seguida, um modelo de geração leve gera quadros detalhados de alta resolução por meio de um processo de difusão, garantindo que o vídeo final seja fluido e visualmente agradável.

Diferentemente de muitos modelos de vídeo que exigem modelos de imagem de pré-treinamento complexos, o MarDini afirma poder ser treinado a partir do zero usando dados de vídeo não rotulados. Isso ocorre porque ele emprega uma estratégia de treinamento progressivo, ajustando flexivelmente a forma como os quadros são mascarados durante o treinamento, permitindo que o modelo lide melhor com diferentes configurações de quadros.

Uma característica notável do MarDini é sua flexibilidade e desempenho. É poderoso e eficiente, adequado para tarefas em maior escala. O modelo pode lidar com várias tarefas, incluindo interpolação de vídeo, geração de vídeo a partir de imagem e extensão de vídeo, desde suavizar clipes de vídeo existentes até criar sequências completas do zero.

Em termos de desempenho, o MarDini estabelece novos padrões, gerando vídeos de alta qualidade em menos etapas, o que o torna mais econômico e rápido do que alternativas mais complexas. O artigo de pesquisa oficial afirma: “Nossa pesquisa mostra que nossa estratégia de modelagem apresenta desempenho competitivo em vários benchmarks de interpolação e animação, ao mesmo tempo em que reduz a demanda computacional em escalas de parâmetros comparáveis.”

Link do projeto: https://mardini-vidgen.github.io/

Destaques:
✨ MarDini é um modelo de geração de vídeo de última geração desenvolvido pelo Meta em colaboração com a KAUST, capaz de realizar diversas tarefas de criação de vídeo com facilidade.
🎥 O modelo, por meio da combinação de modelos de planejamento e geração, realiza interpolação de vídeo e geração de vídeo a partir de imagem de forma eficiente.
💡 MarDini gera vídeos de alta qualidade em menos etapas, melhorando significativamente a flexibilidade e a eficiência da criação.

Notícias e Informações de IA

Meta lança MarDini, um novo modelo de geração de vídeo para preencher quadros ausentes

AIbase基地

Resultado de Imagem para Vídeo

Resultado de Extensão de Vídeo

Resultado de Interpolação de Vídeo

Notícias de IA Relacionadas Recomendadas

Executivos do Google respondem à reversão do compromisso com IA de armas e metas de diversidade, causando indignação entre funcionários!

Estudo alerta para os limites dos modelos de linguagem de IA: desempenho reduzido à metade com contexto superior a 8K, raciocínio conceitual se torna um desafio

Usuários ativos mensais de aplicativos AIGC ultrapassam 100 milhões, com Doubao dominando metade do mercado

Li Xiang: Quase metade do investimento anual em P&D da Ideal Motors é destinada à IA