Recentemente, a Kuaishou, em colaboração com equipes de pesquisa da Universidade de Pequim e da Universidade de Ciência e Tecnologia de Pequim, lançou um modelo de geração de vídeo de ultra-alta definição de código aberto chamado Pyramid-Flow.

Este modelo pode gerar vídeos com até 10 segundos de duração, resolução de 1280x768 e 24 quadros por segundo, a partir de descrições de texto. A qualidade é excepcional, com excelente desempenho em efeitos de iluminação, consistência de movimento e qualidade geral do vídeo.

image.png

O funcionamento do Pyramid Flow difere dos modelos de difusão de vídeo existentes. Modelos existentes geralmente operam em resolução total, o que, embora gere resultados de alta qualidade, consome muitos recursos computacionais. O Pyramid Flow, por sua vez, utiliza a flexibilidade do casamento de fluxo, permitindo interpolação entre diferentes resoluções e níveis de ruído, resultando em geração e descompactação de vídeo mais eficientes.

Tudo isso é otimizado por meio de uma única estrutura chamada DiT, reduzindo significativamente o tempo de treinamento. O Pyramid-Flow, treinado em uma GPU A100 por apenas 20.700 horas, apresenta consumo de energia e eficiência muito superiores aos modelos comparáveis disponíveis no mercado. Isso representa uma grande ajuda para pequenas e médias empresas e desenvolvedores individuais que não dispõem de grande capacidade computacional.

A inovação do Pyramid-Flow reside no uso de uma técnica chamada casamento de fluxo em pirâmide. Este método decompõe a geração de vídeo em várias etapas de diferentes resoluções, começando com um esboço de baixa resolução e aumentando gradualmente para alta resolução. Este design reduz a carga computacional e aumenta a flexibilidade da geração. Cada etapa evolui a partir de uma representação de ruído pixelada até se tornar nítida. Para garantir a continuidade entre as etapas, o algoritmo reintroduz algum ruído durante a transição.

Além disso, o modelo utiliza uma estrutura autorregressiva e um mecanismo de atenção causal em blocos, permitindo que cada quadro seja gerado com base nos quadros anteriores, garantindo a coerência e a lógica do vídeo.

Exemplo oficial: Vídeo de 10 segundos gerado

Exemplo oficial: Imagem gerando vídeo

Em termos de desempenho, o Pyramid Flow se destaca em várias plataformas de comparação. Em comparação com alguns modelos comerciais disponíveis no mercado, apesar de usar apenas dados de vídeo públicos, ele se iguala em termos de qualidade e fluidez. Além disso, pesquisas com usuários revelaram alta satisfação com os resultados de geração do Pyramid Flow, especialmente em relação à suavidade do movimento no vídeo.

Seja para criadores que desejam gerar conteúdo de vídeo impressionante ou para pesquisadores explorando novas tecnologias, o Pyramid Flow oferece uma opção eficiente e fácil de usar.

Link do projeto: https://huggingface.co/rain1011/pyramid-flow-sd3

Destaques:

🌟 A tecnologia gera vídeos com resolução de 768p, 24 quadros por segundo e 10 segundos de duração, e suporta a geração de vídeo a partir de imagens.

💡 Utiliza casamento de fluxo para interpolação entre diferentes resoluções e níveis de ruído, melhorando a eficiência computacional.

🚀 Apresenta excelente desempenho em várias plataformas, com alta avaliação dos usuários em relação à geração de vídeo.