A Beijing Zhihu Hua Zhang Technology Co., Ltd. anunciou o lançamento da versão mais recente de seus modelos CogVideoX, o CogVideoX v1.5, agora disponível em código aberto. Desde seu lançamento em início de agosto, a série de modelos se destacou no campo da geração de vídeo, graças à sua tecnologia de ponta e características apreciadas pelos desenvolvedores. O novo CogVideoX v1.5 apresenta melhorias significativas, incluindo aprimoramentos na geração de vídeos, agora suportando vídeos de 5/10 segundos, 768P e 16 quadros. Além disso, o modelo I2V agora suporta proporções de tamanho arbitrárias, melhorando significativamente a qualidade da geração de vídeo a partir de imagens e a compreensão de semântica complexa.
O código aberto inclui dois modelos: CogVideoX v1.5-5B e CogVideoX v1.5-5B-I2V. A nova versão também estará disponível na plataforma Qingying, combinada com o novo modelo de efeitos sonoros CogSound, oferecendo serviços aprimorados, suporte a resolução ultra-HD, adaptação de proporções variáveis para diferentes cenários de reprodução, saída multicanal e vídeos de IA com efeitos sonoros.
Tecnicamente, o CogVideoX v1.5 utiliza um framework de filtragem automatizado para eliminar dados de vídeo sem conectividade dinâmica e emprega o modelo de compreensão de vídeo CogVLM2-caption para gerar descrições precisas de conteúdo de vídeo, melhorando a compreensão de texto e o cumprimento de instruções. Além disso, a nova versão utiliza um autoencoder variacional tridimensional (3D VAE) eficiente para resolver problemas de coerência de conteúdo e uma arquitetura Transformer desenvolvida internamente que integra texto, tempo e dimensões espaciais tridimensionais, eliminando módulos de atenção cruzada tradicionais. A técnica de normalização adaptativa de camadas de especialistas otimiza o uso de informações de etapas de tempo no modelo de difusão.
Em termos de treinamento, o CogVideoX v1.5 construiu um framework de treinamento de modelo de difusão eficiente, utilizando várias técnicas de computação paralela e otimização de tempo para treinar sequências de vídeo longas rapidamente. A empresa afirma ter verificado a eficácia da lei de scaling na geração de vídeo e planeja expandir o volume de dados e o tamanho do modelo no futuro, explorando arquiteturas de modelos inovadoras para comprimir informações de vídeo de forma mais eficiente e integrar melhor o conteúdo de texto e vídeo.