Lumière
Modelo de difusão espaço-temporal para geração de vídeo
Produto ComumVídeoSíntese de vídeoTexto para vídeo
Lumière é um modelo de difusão texto-para-vídeo, projetado para sintetizar vídeos que exibem movimento realístico, diversificado e coerente, resolvendo desafios críticos na síntese de vídeo. Introduzimos uma arquitetura espaço-temporal U-Net que gera a duração temporal inteira de um vídeo de uma só vez, por meio de uma única passagem do modelo. Isto contrasta com modelos de vídeo existentes que sintetizam keyframes distantes e, em seguida, realizam super-resolução temporal, um método que inerentemente dificulta a coerência temporal global. Ao implementar subamostragem e sobreamostragem espaciais e (importante) temporais, e aproveitando modelos de difusão texto-para-imagem pré-treinados, nosso modelo aprende a gerar diretamente vídeos de baixa resolução e taxa de quadros completa em várias escalas espaço-temporais. Demonstramos resultados de ponta na geração de vídeo a partir de texto e mostramos como nosso design facilita diversas tarefas de criação de conteúdo e aplicações de edição de vídeo, incluindo imagem para vídeo, reparo de vídeo e geração estilizada.
Lumière Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44