A Zhihu AI anunciou o lançamento de código aberto de seu modelo de geração de vídeo, CogVideoX, com o objetivo de impulsionar o rápido desenvolvimento e aplicação da tecnologia de geração de vídeo. O modelo CogVideoX é baseado em tecnologia avançada de modelos grandes e pode atender às necessidades de aplicativos comerciais.
A versão CogVideoX-2B de código aberto atualmente requer apenas 18 GB de memória de vídeo para inferência com precisão FP-16 e 40 GB para ajuste fino, permitindo inferência com uma única placa gráfica 4090 e ajuste fino com uma única placa gráfica A6000.
O modelo CogVideoX emprega a tecnologia de autocodificador variacional 3D (3D VAE), comprimindo simultaneamente as dimensões espacial e temporal do vídeo por meio de convolução tridimensional, resultando em maior taxa de compressão e melhor qualidade de reconstrução. A estrutura do modelo inclui um codificador, um decodificador e um regularizador de espaço latente, usando convolução causal temporal para garantir a causalidade da informação. Além disso, a tecnologia Transformer especializada é usada para processar os dados de vídeo codificados, combinando a entrada de texto para gerar conteúdo de vídeo de alta qualidade.
Para treinar o modelo CogVideoX, a Zhihu AI desenvolveu um método para selecionar dados de vídeo de alta qualidade, excluindo vídeos com edição excessiva ou movimentos inconsistentes, garantindo a qualidade dos dados de treinamento do modelo. Simultaneamente, o problema da falta de descrição textual dos dados de vídeo foi resolvido por meio de um pipeline que gera legendas de vídeo a partir de legendas de imagem.
Em termos de avaliação de desempenho, o CogVideoX apresentou desempenho superior em vários indicadores, incluindo ações humanas, cenários, grau de dinâmica e ferramentas de avaliação focadas nas características dinâmicas do vídeo. A Zhihu AI continuará explorando inovações na área de geração de vídeo, incluindo novas arquiteturas de modelos, compressão de informações de vídeo e fusão de conteúdo de texto e vídeo.
Repositório de código:
https://github.com/THUDM/CogVideo
Download do modelo:
https://huggingface.co/THUDM/CogVideoX-2b
Relatório técnico:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf