Recentemente, a empresa de inteligência artificial Rhymes AI lançou oficialmente o código aberto de seu modelo avançado de geração de vídeo a partir de texto, o Allegro. O Allegro permite que os usuários transformem descrições textuais simples em clipes de vídeo curtos de alta qualidade, abrindo novas possibilidades para criadores, desenvolvedores e pesquisadores na área de geração de vídeo por IA.

O Allegro pode gerar vídeos de alta qualidade de 6 segundos, a 15 quadros por segundo e com resolução de 720p, com base em prompts de texto fornecidos pelo usuário. Ele abrange uma variedade de temas cinematográficos, desde close-ups de pessoas e animais até ações em vários cenários, podendo praticamente realizar qualquer cena baseada em descrição textual.

A tecnologia central do Allegro inclui o processamento de dados de vídeo em larga escala, a compressão de vídeos brutos em tokens visuais e o Transformer de difusão de vídeo expandido.

Em relação ao processamento de dados de vídeo em larga escala, a Rhymes AI projetou um pipeline de processamento e filtragem de dados do sistema, extraindo vídeos de treinamento a partir de dados brutos e desenvolvendo um sistema de dados estruturados para classificar e agrupar dados multidimensionalmente, facilitando o treinamento e o ajuste fino do modelo.

Quanto à compressão de vídeo em tokens visuais, o Allegro usa um autoencoder variacional de vídeo (VideoVAE) para comprimir vídeos brutos em tokens visuais menores, mantendo os detalhes necessários e permitindo uma geração de vídeo mais suave e eficiente. O VideoVAE é construído sobre um VAE de imagem pré-treinado e expande as camadas de modelagem espaço-temporal, utilizando eficientemente a capacidade de compressão espacial.

No que diz respeito ao Transformer de difusão de vídeo expandido, o núcleo do Allegro é sua arquitetura Transformer de difusão expandida. Ele aplica modelos de difusão para gerar quadros de vídeo de alta resolução, garantindo a qualidade e a suavidade do movimento do vídeo. A rede principal do Allegro é baseada na arquitetura DiT (Diffusion Transformer), com incorporação de posição 3D RoPE e mecanismo de atenção total 3D. Em comparação com os modelos de difusão tradicionais que usam a arquitetura UNet, a estrutura Transformer é mais favorável à expansão do modelo. Ao utilizar o mecanismo de atenção 3D, o DiT pode processar simultaneamente a dimensão espacial dos quadros de vídeo e sua evolução temporal, permitindo uma compreensão mais detalhada do movimento e do contexto.

A Rhymes AI afirma que o Allegro é apenas o começo, e a equipe está ativamente desenvolvendo recursos mais avançados, incluindo geração de imagem para vídeo, controle de movimento e suporte para geração de vídeos mais longos, baseados em narrativas e no estilo de storyboard.

Para tornar a criação de vídeos impulsionada por IA mais acessível a uma gama mais ampla de usuários, a Rhymes AI tornou totalmente de código aberto os pesos do modelo e o código do Allegro, incentivando a comunidade a explorar, liberar a criatividade e construir sobre essa base, a fim de alcançar um progresso colaborativo na tecnologia de geração de vídeo por IA.

Endereço do projeto: https://github.com/rhymes-ai/Allegro