A Shanghai Jieyue Xingchen Intelligent Technology Co., Ltd. anunciou o lançamento de código aberto de seu mais recente modelo de vídeo gerado por imagem – Step-Video-TI2V. Este modelo, treinado com base no Step-Video-T2V de 30 bilhões de parâmetros, pode gerar vídeos de 102 quadros, 5 segundos e resolução 540P, com duas características principais: amplitude de movimento controlável e movimento de câmera controlável, apresentando desempenho excepcional em efeitos de animação. Comparado com os modelos de vídeo gerados por imagem de código aberto existentes, o Step-Video-TI2V não apenas oferece um limite superior maior em termos de escala de parâmetros, mas sua capacidade de controlar a amplitude de movimento também equilibra a dinâmica e a estabilidade dos resultados da geração de vídeo, oferecendo aos criadores opções mais flexíveis.

微信截图_20250320143140.png

Durante o desenvolvimento do Step-Video-TI2V, a equipe realizou duas otimizações principais. Primeiro, a introdução de condições de imagem para melhorar a consistência entre o vídeo gerado e a imagem original. Diferentemente dos métodos tradicionais de atenção cruzada, este modelo adota uma abordagem mais direta, concatenando a representação vetorial correspondente à imagem com a representação vetorial correspondente ao primeiro quadro do DiT na dimensão do canal, garantindo assim que o vídeo gerado seja altamente consistente com a imagem de entrada. Em segundo lugar, por meio do módulo AdaLN, são introduzidas informações de pontuação de dinâmica de vídeo, permitindo que os usuários especifiquem diferentes níveis de movimento ao gerar vídeos, controlando com precisão a amplitude dinâmica do vídeo e, assim, equilibrando a dinâmica, estabilidade e consistência. Além disso, a equipe também realizou uma anotação precisa e especializada de ações principais e movimentos de câmera, melhorando ainda mais o desempenho do modelo em termos de dinâmica principal e efeitos de câmera.

As características principais do Step-Video-TI2V incluem amplitude de movimento controlável, vários controles de câmera, excelentes efeitos de animação e suporte à geração de vários tamanhos. Os usuários podem alternar livremente entre cenas dinâmicas e estáticas de acordo com suas necessidades criativas, gerando vídeos com efeitos de câmera que vão de panorâmica, inclinação, zoom e elevação a efeitos de câmera complexos de nível cinematográfico. O modelo apresenta desempenho particularmente excelente em tarefas relacionadas a animação, sendo ideal para criação de animações e produção de vídeos curtos. Além disso, ele suporta vídeo gerado por imagem em vários tamanhos, atendendo às necessidades de diferentes plataformas, sejam telas horizontais, verticais ou quadradas.

Endereço de Experiência:

https://yuewen.cn/videos

GitHub:

https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:

https://github.com/stepfun-ai/ComfyUI-StepVideo