Hoje, a Alibaba anunciou oficialmente a liberação de código aberto de seu modelo de geração de vídeo, o Wanxiang 2.1, com versões de 14B e 1.3B disponíveis. A versão profissional de 14B oferece alto desempenho e capacidade de produção de ponta, atendendo a cenários com requisitos extremamente altos de qualidade de vídeo; enquanto a versão ultrarrápida de 1.3B é compatível com placas de vídeo de consumo, exigindo apenas 8,2 GB de VRAM para gerar vídeos de alta qualidade em 480P, sendo ideal para desenvolvimento secundário de modelos e pesquisa acadêmica.
De acordo com a empresa, o Wanxiang 2.1 de código aberto apresenta vantagens significativas no processamento de movimentos complexos, na reprodução de leis físicas reais, na melhoria da qualidade cinematográfica e na otimização do seguimento de instruções, atendendo às diversas necessidades de criadores, desenvolvedores e empresas. Com o Tongyi Wanxiang, os usuários podem gerar vídeos de alta qualidade com facilidade, especialmente nas áreas de publicidade e vídeos curtos, atendendo às altas exigências de criatividade.
No conjunto de avaliação VBench, o Tongyi Wanxiang ficou em primeiro lugar com uma pontuação total de 86,22%, superando outros modelos de geração de vídeo nacionais e internacionais, como Sora, Minimax e Luma. Essa avaliação é baseada nos paradigmas principais de DiT e Flow Matching de ruído linear, utilizando uma série de inovações tecnológicas para melhorar a capacidade de geração do modelo. Em particular, o módulo VAE causal 3D de alta eficiência desenvolvido internamente conseguiu atingir uma compressão de espaço latente de vídeo sem perdas de 256 vezes, suportando a codificação e decodificação eficientes de vídeos de qualquer comprimento.
Durante a geração de vídeo, o Tongyi Wanxiang utiliza o mecanismo Full Attention baseado na estrutura DiT principal, modelando efetivamente a dependência espaço-temporal e garantindo a alta qualidade e consistência do vídeo gerado. A estratégia de treinamento do modelo adota um método de treinamento em seis etapas, iniciando com dados de baixa resolução e introduzindo gradualmente dados de alta resolução para garantir o desempenho excepcional do modelo em diferentes condições. Além disso, o Tongyi Wanxiang emprega um rigoroso processo de limpeza de dados para garantir a alta qualidade dos dados de treinamento.
Em termos de otimização da eficiência de treinamento e inferência, o Tongyi Wanxiang utiliza várias tecnologias avançadas, como estratégias de treinamento distribuído, otimização de valores de ativação e gerenciamento de memória, garantindo a estabilidade do treinamento do modelo e a eficiência da inferência. Combinado com o agendamento inteligente do cluster de treinamento da Alibaba Cloud, o modelo pode identificar automaticamente falhas e reiniciar rapidamente durante o treinamento, garantindo um processo de treinamento sem problemas.
O Tongyi Wanxiang 2.1 já está disponível em código aberto no GitHub e Hugging Face, suportando vários frameworks principais e oferecendo uma experiência de uso conveniente para desenvolvedores e pesquisadores. Seja para desenvolvimento rápido de protótipos ou implantação de produção eficiente, o Tongyi Wanxiang atende às necessidades de diferentes usuários e injeta nova vitalidade no desenvolvimento da tecnologia de geração de vídeo.
Entrada da comunidade Mota: https://modelscope.cn/organization/Wan-AI
Destaques:
🌟 Tongyi Wanxiang 2.1 de código aberto, atendendo a diversas necessidades de geração de vídeo.
🏆 Primeiro lugar na avaliação VBench com 86,22%, superando outros modelos.
🚀 Treinamento em etapas e otimizações tecnológicas para melhorar a eficiência e qualidade da geração.