Recentemente, o Meta, em colaboração com a King Abdullah University of Science and Technology (KAUST) da Arábia Saudita, lançou uma nova série de modelos de difusão de vídeo — MarDini. Este modelo torna a criação de vídeos de alta qualidade mais simples e flexível, permitindo diversas tarefas, como preencher quadros ausentes em vídeos, transformar uma única imagem em uma cena dinâmica e até mesmo estender clipes curtos adicionando quadros contínuos naturais.

image.png

Construindo sobre o trabalho do ano passado, o Meta intensificou seus esforços na área de geração de vídeos de IA. Anteriormente, lançou modelos de texto para vídeo e edição, como Emu Video e Emu Edit. Este ano, antes do lançamento do MarDini, também lançou o Movie Gen, um editor de vídeo avançado. Isso demonstra o compromisso do Meta em fornecer ferramentas mais poderosas para criadores de vídeo.

A força do MarDini reside em sua capacidade de gerar vídeo a partir de um número arbitrário de quadros de máscara, suportando várias tarefas de geração, como interpolação de vídeo, conversão de imagem para vídeo e extensão de vídeo.

Resultado de Imagem para Vídeo

Uma das principais aplicações do MarDini é a geração de vídeo a partir de imagem. Essa funcionalidade é demonstrada usando um quadro de referência colocado no meio como entrada condicional e gerando 16 quadros adicionais. No exemplo de vídeo oficial gerado, são 17 quadros renderizados a 8 FPS, resultando em um vídeo fluido de 2 segundos.

Resultado de Extensão de Vídeo

O MarDini também pode estender vídeos ajustando vídeos existentes de qualquer duração. Demonstramos isso gerando uma extensão de 2 segundos a partir de um vídeo de referência de 5 quadros, adicionando 12 novos quadros a cada sequência.

Resultado de Interpolação de Vídeo

O MarDini realiza a interpolação de vídeo gerando quadros intermediários usando o primeiro e o último quadro como sinais de condicionamento. Quando esses quadros de limite são os mesmos, o MarDini pode criar vídeos em loop contínuo.

O funcionamento do MarDini é bastante interessante. Ele emprega uma técnica de geração de vídeo avançada e eficiente, composta principalmente por duas partes: um modelo de planejamento e um modelo de geração. Primeiro, o modelo de planejamento usa o método de auto-regressão mascarada (MAR) para interpretar os quadros de entrada de baixa resolução e gerar um sinal guia para os quadros a serem criados. Em seguida, um modelo de geração leve gera quadros detalhados de alta resolução por meio de um processo de difusão, garantindo que o vídeo final seja fluido e visualmente agradável.

Diferentemente de muitos modelos de vídeo que exigem modelos de imagem de pré-treinamento complexos, o MarDini afirma poder ser treinado a partir do zero usando dados de vídeo não rotulados. Isso ocorre porque ele emprega uma estratégia de treinamento progressivo, ajustando flexivelmente a forma como os quadros são mascarados durante o treinamento, permitindo que o modelo lide melhor com diferentes configurações de quadros.

Uma característica notável do MarDini é sua flexibilidade e desempenho. É poderoso e eficiente, adequado para tarefas em maior escala. O modelo pode lidar com várias tarefas, incluindo interpolação de vídeo, geração de vídeo a partir de imagem e extensão de vídeo, desde suavizar clipes de vídeo existentes até criar sequências completas do zero.

Em termos de desempenho, o MarDini estabelece novos padrões, gerando vídeos de alta qualidade em menos etapas, o que o torna mais econômico e rápido do que alternativas mais complexas. O artigo de pesquisa oficial afirma: “Nossa pesquisa mostra que nossa estratégia de modelagem apresenta desempenho competitivo em vários benchmarks de interpolação e animação, ao mesmo tempo em que reduz a demanda computacional em escalas de parâmetros comparáveis.”

Link do projeto: https://mardini-vidgen.github.io/

Destaques:

✨ MarDini é um modelo de geração de vídeo de última geração desenvolvido pelo Meta em colaboração com a KAUST, capaz de realizar diversas tarefas de criação de vídeo com facilidade.

🎥 O modelo, por meio da combinação de modelos de planejamento e geração, realiza interpolação de vídeo e geração de vídeo a partir de imagem de forma eficiente.

💡 MarDini gera vídeos de alta qualidade em menos etapas, melhorando significativamente a flexibilidade e a eficiência da criação.