Hoje, a equipe de tecnologia da Zhipu lançou seu mais recente modelo de geração de vídeo, CogVideoX v1.5, e o tornou de código aberto. Esta versão representa mais um avanço importante na série CogVideoX da equipe da Zhipu desde agosto.
De acordo com informações, esta atualização melhora significativamente a capacidade de geração de vídeo, incluindo suporte para vídeos de 5 e 10 segundos, resolução de 768P e capacidade de geração de 16 quadros. Simultâneamente, o modelo I2V (imagem para vídeo) também suporta proporções de tamanho arbitrárias, melhorando ainda mais a capacidade de compreensão de semântica complexa.
O CogVideoX v1.5 inclui dois modelos principais: CogVideoX v1.5-5B e CogVideoX v1.5-5B-I2V, com o objetivo de fornecer aos desenvolvedores ferramentas de geração de vídeo mais poderosas.
Ainda mais importante, o CogVideoX v1.5 será lançado simultaneamente na plataforma Qingying e, em conjunto com o recém-lançado modelo de efeitos sonoros CogSound, se tornará a "Nova Qingying".A Nova Qingying oferecerá diversos serviços especiais, incluindo melhoria significativa na qualidade do vídeo, melhor desempenho estético e movimento mais natural, com suporte para geração de vídeos ultra-HD de 10 segundos, 4K e 60 quadros.
Apresentação oficial:
Melhoria da qualidade: Aumento significativo na qualidade da geração de vídeo a partir de imagens, desempenho estético, naturalidade do movimento e capacidade de compreensão de termos complexos.
Resolução ultra-HD: Suporte para geração de vídeos ultra-HD de 10s, 4K e 60 quadros.
Proporção variável: Suporte a proporções arbitrárias, adaptando-se a diferentes cenários de reprodução.
Saída multicanal: O mesmo comando/imagem pode gerar quatro vídeos simultaneamente.
Vídeo de IA com efeitos sonoros: A Nova Qingying pode gerar efeitos sonoros que combinam com as imagens.
No que diz respeito ao processamento de dados, a equipe CogVideoX concentrou-se em melhorar a qualidade dos dados, desenvolvendo uma estrutura de seleção automatizada para filtrar dados de vídeo inadequados e lançando o modelo de compreensão de vídeo de ponta a ponta CogVLM2-caption para gerar descrições de conteúdo precisas. Este modelo consegue processar comandos complexos de forma eficaz, garantindo que os vídeos gerados correspondam às necessidades do utilizador.
Para melhorar a coerência do conteúdo, o CogVideoX utiliza a tecnologia eficiente de autocodificador variacional tridimensional (3D VAE), reduzindo significativamente o custo e a dificuldade de treinamento. Além disso, a equipe também desenvolveu uma arquitetura Transformer que integra texto, tempo e dimensões espaciais tridimensionais, melhorando o efeito de interação entre texto e vídeo e a qualidade da geração de vídeo através da remoção dos tradicionais módulos de atenção cruzada.
No futuro, a equipe de tecnologia da Zhipu continuará a expandir a quantidade de dados e o tamanho do modelo, explorando arquiteturas de modelos mais eficientes para alcançar uma experiência de geração de vídeo de melhor qualidade. A disponibilização de código aberto do CogVideoX v1.5 não apenas fornece aos desenvolvedores ferramentas poderosas, mas também injeta nova vitalidade no campo da criação de vídeo.
Código: https://github.com/thudm/cogvideo
Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
Destaques:
🌟 Nova versão CogVideoX v1.5 de código aberto, com suporte para vídeos de 5/10 segundos, resolução de 768P e capacidade de geração de 16 quadros.
🎨 Lançamento da nova plataforma Qingying, combinada com o modelo de efeitos sonoros CogSound, oferecendo geração de vídeos ultra-HD 4K.
📈 Processamento de dados e inovação de algoritmos, garantindo a qualidade e a coerência dos vídeos gerados.