Os modelos de código aberto da Alibaba sempre foram muito notados. A série Qwen, lançada em junho do ano passado, tem boa reputação na comunidade de desenvolvedores, com os modelos de 72B e 110B chegando ao topo da lista de modelos de código aberto do Hugging Face várias vezes. Já o DeepSeek-V3, lançado em dezembro passado, superou a série Qwen no mesmo mês.
De acordo com a classificação mais recente da comunidade de código aberto Hugging Face, o modelo de grande linguagem Wanxiang da Alibaba, recém-lançado há uma semana, alcançou o topo das listas de modelos populares e de espaço de modelos, superando o DeepSeek-R1. Atualmente, o Wan 2.1 (Wan2.1) já ultrapassou um milhão de downloads no Hugging Face e na comunidade Modu. Nesta ocasião, a Alibaba lançou versões com 14B e 1.3B de parâmetros, suportando tarefas de geração de vídeo a partir de texto e de vídeo a partir de imagem.
Introdução ao Wan 2.1
O Wan 2.1 é um conjunto abrangente e de código aberto de modelos de vídeo básicos desenvolvido pelo laboratório Tongyi da Alibaba Group, com o objetivo de superar os limites tecnológicos da geração de vídeo. Ele é construído com base na estrutura principal do Transformer de difusão, usando uma série de tecnologias inovadoras, como um novo autocodificador variacional espaço-temporal (VAE), uma estratégia de pré-treinamento escalável, construção de dados em grande escala e indicadores de avaliação automatizados, para melhorar a capacidade de geração, o desempenho e a generalização do modelo.
O modelo inclui várias versões com diferentes números de parâmetros, como T2V-1.3B e T2V-14B (modelos de texto para vídeo), I2V-14B-720P e I2V-14B-480P (modelos de imagem para vídeo), para atender às necessidades de diferentes usuários e cenários de aplicação.
Destaques do Wan 2.1
- Desempenho excepcional que supera os concorrentes: Em vários testes de referência, o Wan 2.1 continua superando os modelos de código aberto existentes e as principais soluções comerciais, alcançando o nível mais avançado do setor em termos de qualidade, detalhes e realismo da geração de vídeo. Por exemplo, no ranking VBench, alcançou o primeiro lugar com uma pontuação total de 86,22%, superando modelos conhecidos como Sora e HunyuanVideo.
- Suporte para execução em GPUs de nível consumidor: A versão T2V-1.3B tem requisitos de hardware amigáveis, necessitando apenas de 8,19 GB de VRAM para funcionar em GPUs de nível consumidor, como a RTX 4090. Em uma RTX 4090, leva cerca de 4 minutos para gerar um vídeo de 5 segundos em 480P, com desempenho comparável a alguns modelos de código fechado, reduzindo a barreira de entrada e facilitando o uso por desenvolvedores individuais e pesquisadores.
- Cobertura completa de várias tarefas: Possui uma forte capacidade de processamento de várias tarefas, abrangendo funções como texto para vídeo (T2V), imagem para vídeo (I2V), edição de vídeo, texto para imagem (T2I) e vídeo para áudio (V2A). Os usuários podem gerar vídeos com base em descrições de texto, transformar imagens estáticas em vídeos dinâmicos, editar e otimizar vídeos existentes, e gerar imagens a partir de texto e combinar áudio automaticamente com vídeos.
- Vantagem única na geração de texto visual: É o primeiro modelo de vídeo a suportar a geração de texto em chinês e inglês em vídeos, com efeitos especiais ricos e adaptação ao cenário e ao suporte, movendo-se junto com o suporte. Seja fonte de efeitos especiais, fonte de pôster ou texto em cenários reais, ele pode ser gerado com precisão, adicionando elementos ricos à criação de vídeos.
- Reproduz movimentos complexos com precisão: É especializado em gerar vídeos realistas com movimentos complexos, podendo representar com precisão movimentos como rotação, salto e dança do corpo humano, bem como movimento rápido de objetos e mudanças de cena. Cenários de movimento complexos, como a sincronia de movimentos em uma apresentação de hip-hop com várias pessoas, a fluidez dos arremessos de jogadores em uma quadra de basquete e a postura natural de um cachorro correndo na neve, são reproduzidos com excelência pelo Wan 2.1.
- Simulação física de alta fidelidade: Pode simular com precisão as leis físicas do mundo real e a interação real entre objetos. Na geração de vídeo, ele pode representar de forma realista a colisão, o rebote e o corte de objetos, bem como o fluxo de líquidos, as mudanças de luz e sombra dos objetos, etc. Por exemplo, simular os rastros dinâmicos do leite escorrendo de um copo de vidro transparente ao ser virado, a força de interação entre um morango e a água ao ser colocado na água, etc., tornando os vídeos gerados mais próximos da realidade.
- Apresentação de qualidade de imagem cinematográfica: Pode gerar vídeos com qualidade cinematográfica, com texturas ricas e diversos efeitos de estilização. Ajustando os parâmetros e configurações, diferentes estilos visuais podem ser alcançados, como retrô, ficção científica, realismo, etc., oferecendo aos usuários uma experiência visual de alta qualidade. Um vídeo que simula um drone voando entre arranha-céus em uma paisagem noturna urbana pode representar de forma realista os complexos efeitos de iluminação e o estilo arquitetônico, criando uma atmosfera visual impressionante.
- Segue instruções de texto longo com precisão: Possui uma forte capacidade de compreensão de instruções de texto longo e complexo, podendo gerar vídeos de acordo com a descrição do texto, garantindo a integridade dos detalhes. Seja em cenários de movimento com múltiplos sujeitos, ou em requisitos complexos de construção de ambientes e criação de atmosfera, o Wan 2.1 pode captar com precisão. Por exemplo, com base em um texto longo como "Cena de uma festa animada, um grupo de jovens de diversas etnias dançando alegremente no centro de uma sala de estar ampla e iluminada...", ele pode gerar um vídeo animado que corresponde à descrição, com personagens, movimentos e atmosfera de cena representados com precisão.
Cenários de Aplicação
- Produção de anúncios: Agências de publicidade podem usar o Wan 2.1 para gerar rapidamente vídeos publicitários atraentes com base nas características do produto e nas necessidades de promoção. Por exemplo, ao criar um anúncio para produtos eletrônicos, descrevendo as funções e características do produto por meio de texto, combinando efeitos especiais e cenários impressionantes, pode-se gerar um vídeo promocional que destaca as vantagens do produto.
- Criação de vídeos curtos: Criadores individuais podem usar o Wan 2.1 para transformar textos ou imagens criativos em vídeos interessantes ao criar conteúdo em plataformas de vídeos curtos. Por exemplo, ao criar um vídeo curto sobre culinária, inserindo textos como "O processo de fazer um bolo delicioso", pode-se gerar o vídeo correspondente, e adicionar música e efeitos de texto adequados para melhorar a qualidade e o apelo do vídeo.
- Assistência na produção cinematográfica: Equipes de produção cinematográfica podem usar o Wan 2.1 para visualizar rapidamente as cenas do roteiro na fase inicial de concepção criativa e validação de conceitos. Por exemplo, um diretor pode gerar um vídeo curto simples inserindo um trecho do roteiro para avaliar o efeito da cena e ajustar o plano de filmagem, economizando tempo e custos.
- Ensino: Professores podem usar o Wan 2.1 para apresentar conhecimentos abstratos em forma de vídeos vívidos ao criar vídeos de ensino. Por exemplo, simular o movimento de objetos e fenômenos físicos no ensino de física para ajudar os alunos a entender melhor os pontos de conhecimento; gerar vídeos com cenas de diálogo no ensino de línguas para criar um ambiente de aprendizagem de línguas.
- Desenvolvimento de jogos: Desenvolvedores de jogos podem usar o Wan 2.1 para criar vídeos promocionais de jogos, animações de cenas, etc. Inserindo descrições de personagens, cenários e enredos do jogo, podem gerar vídeos impressionantes para promover o jogo e melhorar a experiência do jogador.
Tutorial de Uso do Wan 2.1
- Preparação do ambiente de instalação: Primeiro, certifique-se de que seu dispositivo atende aos requisitos de execução. Se você estiver usando o modelo T2V-1.3B, uma GPU de nível consumidor (como a RTX 4090) precisa ter pelo menos 8,19 GB de VRAM. Em seguida, clone o repositório de código, digite
git clone https://github.com/Wan-Video/Wan2.1.git
no terminal e acesse o diretório do projetocd Wan2.1
. Então, instale as dependências, executepip install -r requirements.txt
e certifique-se de quetorch >= 2.4.0
. - Download do modelo: Você pode usar
huggingface-cli
oumodelscope-cli
para baixar o modelo. Usandohuggingface-cli
como exemplo, primeiro instalepip install "huggingface_hub[cli]"
e, em seguida, de acordo com o modelo necessário, como para baixar o modelo T2V-14B, digitehuggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
. Os links de download e a resolução aplicável de diferentes modelos podem ser consultados na documentação oficial, como os modelos I2V-14B-720P, I2V-14B-480P, T2V-1.3B, etc., todos têm seus métodos de download correspondentes. - Geração de vídeo a partir de texto
- Inferência de GPU única sem extensão de prompt: Execute
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "descrição de texto específica"
no terminal, ondeprompt
insere a descrição específica de geração de vídeo. Se você estiver usando o modelo T2V-1.3B e encontrar problemas de memória insuficiente, adicione os parâmetros--offload_model True --t5_cpu
e ajuste--sample_shift
(8-12) e--sample_guide_scale 6
de acordo com o desempenho. - Inferência de várias GPUs sem extensão de prompt (FSDP + xDiT USP): Primeiro instale
xfuser
, executepip install "xfuser>=0.4.1"
e, em seguida, usetorchrun
para inferência de várias GPUs, comotorchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "descrição de texto específica"
. - Usando extensão de prompt: Se você estiver usando a extensão de prompt da API Dashscope, você precisa solicitar
dashscope.api_key
antecipadamente e configurar a variável de ambienteDASH_API_KEY
. Por exemplo, executeDASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "descrição de texto específica" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'
. Se você estiver usando a extensão de modelo local, o modelo Qwen no HuggingFace será usado por padrão. Você pode escolher o modelo apropriado de acordo com a memória da GPU, comoQwen/Qwen2.5-14B-Instruct
, e especificá-lo usando--prompt_extend_model
, comopython generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "descrição de texto específica" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'
. - Executando gradio local: Acesse o diretório
gradio
. Se você estiver usando a extensão de prompt da API Dashscope, executeDASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B
; se você estiver usando a extensão de modelo local, executepython t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B
.
- Inferência de GPU única sem extensão de prompt: Execute
- Geração de vídeo a partir de imagem: Similar à geração de vídeo a partir de texto, também é dividida em etapas com e sem extensão de prompt. Sem extensão de prompt, a inferência de GPU única executa
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "descrição de texto específica"
, observe que o parâmetrosize
é determinado pela proporção de largura e altura da imagem de entrada. Na inferência de várias GPUs, primeiro instalexfuser
e, em seguida, executetorchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "descrição de texto específica"
. Ao usar a extensão de prompt, consulte o método de extensão de prompt da geração de vídeo a partir de texto e escolha usar a API Dashscope ou o modelo local de acordo com suas necessidades. Ao executar o gradio local, de acordo com a versão do modelo usado, execute o comando correspondente no diretóriogradio
, como usar o modelo 720P e a extensão de prompt da API Dashscope, executeDASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
. - Geração de imagem a partir de texto: Sem extensão de prompt, a inferência de GPU única executa
python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt 'descrição de texto específica'