Recentemente, a empresa de IA ZhiPu lançou o novo modelo de geração de vídeo CogVideoX-5B, que não apenas supera seu antecessor, o CogVideoX-2B, em qualidade e efeitos visuais de geração de vídeo, mas também apresenta um aumento significativo no desempenho de inferência. Isso permite que placas de vídeo mais antigas, como a GTX1080Ti, consigam executar o modelo anterior, enquanto placas de vídeo de mesa de nível intermediário, como a RTX3060, podem lidar com este novo modelo com facilidade.

Comparação detalhada de parâmetros entre CogVideoX-5B e CogVideoX-2B:

image.png

Este modelo DiT (Transformador de Difusão) em larga escala foi projetado para executar tarefas de geração de vídeo a partir de texto. A tecnologia por trás dele inclui um autocodificador variacional causal 3D (3D causal VAE), que comprime os dados de vídeo para um espaço latente e o decodifica na dimensão temporal para reconstrução de vídeo eficiente.

Além disso, o uso de um Transformador Especialista (Expert Transformer) combina embeddings de texto e vídeo, usando 3D-RoPE como codificação posicional. Ele processa os dados dos dois modos usando normalização de camada adaptativa especialista e utiliza um mecanismo de atenção 3D completo para modelagem conjunta espaço-temporal.

Código: https://top.aibase.com/tool/cogvideox

Download do modelo: https://huggingface.co/THUDM/CogVideoX-5b

Link do artigo: https://arxiv.org/pdf/2408.06072