Equipes de pesquisa do Kuaishou, da Universidade de Pequim e da Universidade de Ciência e Tecnologia de Pequim uniram forças para lançar uma importante conquista tecnológica: o modelo de vídeo ultra-HD Pyramid-Flow. Este projeto de código aberto alcançou um avanço significativo na área de geração de vídeo por inteligência artificial, abrindo novas possibilidades para o setor.

O modelo Pyramid-Flow demonstra capacidades surpreendentes. Com apenas uma entrada de texto, ele pode gerar vídeos de alta qualidade com até 10 segundos de duração, resolução de 1280x768 e taxa de quadros de 24 fps. Seja em efeitos de iluminação, coerência de movimento, qualidade de imagem geral, reprodução semântica de texto ou combinação de cores, o Pyramid-Flow se destaca, gerando vídeos de tirar o fôlego.

Um dos principais destaques desta tecnologia é seu processo de treinamento eficiente. A equipe de pesquisa, usando apenas uma GPU A100 em um conjunto de dados de código aberto, conseguiu resultados excelentes com apenas 20.700 horas de treinamento. Em comparação com modelos de vídeo de código aberto semelhantes no mercado, o Pyramid-Flow apresenta vantagens significativas em termos de consumo de energia e eficiência de geração, o que é uma ótima notícia para pequenas e médias empresas e desenvolvedores individuais com recursos limitados.

A inovação central do Pyramid-Flow reside em seu exclusivo algoritmo de "correspondência de fluxo de pirâmide". Este método divide inteligentemente o complexo processo de geração de vídeo em vários níveis de resolução, começando com um esboço grosseiro de baixa resolução e gradualmente adicionando detalhes até atingir um vídeo refinado de alta resolução. Este método em etapas não apenas reduz significativamente as necessidades de computação, mas também aumenta a flexibilidade e o controle do processo de geração.

Além disso, o algoritmo introduz uma estrutura de geração de vídeo autorregressiva e um mecanismo de atenção causal em blocos, melhorando ainda mais a qualidade e a coerência do vídeo. Essas inovações permitem que o Pyramid-Flow gere conteúdo de vídeo impressionante, desde paisagens noturnas com fogos de artifício até ruas de Tóquio nevadas, desde imagens em preto e branco às margens do Sena até cenas de tsunamis cheias de ação – cada quadro é vívido e realista.

A disponibilização do código aberto do Pyramid-Flow não apenas impulsiona o desenvolvimento da tecnologia de geração de vídeo de IA, mas também injeta nova vitalidade na indústria criativa. Seja na produção cinematográfica, na criação de anúncios ou na criação pessoal, esta tecnologia oferece aos criadores uma ferramenta poderosa.

Endereço do projeto: https://github.com/jy0205/Pyramid-Flow

Endereço para teste online: https://huggingface.co/spaces/Pyramid-Flow/pyramid-flow