No campo da criação de conteúdo digital, a capacidade de gerar vídeos a partir de descrições de texto tem sido um foco de pesquisa. Imagine a emoção de clonar movimentos de um vídeo de referência e aplicá-los perfeitamente a uma nova descrição de texto, criando conteúdo de vídeo totalmente novo! Essa é a maravilha que a tecnologia MotionClone realiza.

image.png

Embora os modelos existentes de geração de vídeo a partir de texto (Text-to-Video, T2V) tenham alcançado algum progresso, eles ainda enfrentam desafios na síntese de movimentos. Os métodos tradicionais geralmente exigem treinamento ou ajuste fino de modelos para codificar pistas de movimento, mas esses métodos tendem a apresentar desempenho insatisfatório ao lidar com tipos de movimento desconhecidos.

MotionClone propõe uma estrutura que não requer treinamento, clonando movimentos diretamente de um vídeo de referência para controlar a geração de vídeo a partir de texto. Essa estrutura utiliza um mecanismo de atenção temporal para capturar os movimentos no vídeo de referência e introduz uma orientação de atenção temporal principal para reduzir o impacto de ruídos ou movimentos mínimos nos pesos de atenção. Além disso, para ajudar o modelo de geração a sintetizar relações espaciais razoáveis e melhorar sua capacidade de seguir prompts, os pesquisadores propuseram um mecanismo de orientação semântica sensível à posição.

Destaques da tecnologia:

Mecanismo de atenção temporal: representa os movimentos no vídeo de referência por meio da inversão do vídeo.

Orientação de atenção temporal principal: utiliza apenas os componentes principais dos pesos de atenção temporal para orientar a geração de vídeo.

Orientação semântica sensível à posição: utiliza a posição aproximada em primeiro plano do vídeo de referência e as características de orientação do classificador original para orientar a geração de vídeo.

Por meio de numerosos experimentos, o MotionClone demonstrou capacidade excepcional em movimentos de câmera globais e movimentos de objetos locais, apresentando vantagens significativas em fidelidade de movimento, alinhamento de texto e consistência temporal.

O advento da tecnologia MotionClone trouxe uma mudança revolucionária para o campo da criação de vídeo. Ela não apenas melhora a qualidade da geração de conteúdo de vídeo, mas também aumenta significativamente a eficiência da criação. Com o desenvolvimento e aprimoramento contínuo dessa tecnologia, temos razões para acreditar que a criação de vídeos futuros será mais inteligente, personalizada e poderá até mesmo alcançar a visão de criação "o que se pensa é o que se obtém".

Endereço do projeto: https://top.aibase.com/tool/motionclone