Hoje, a Jieyue Xingchen e a Geely Automobile Group anunciaram em conjunto a disponibilização de código aberto de dois modelos multimodais da série Jieyue Step: o modelo de geração de vídeo Step-Video-T2V e o modelo de voz Step-Audio.
Entre eles, o modelo de geração de vídeo Step-Video-T2V da Jieyue está em nível de liderança global em termos de quantidade de parâmetros e desempenho. Este modelo possui 30 bilhões de parâmetros e pode gerar diretamente vídeos de alta qualidade com 204 quadros e resolução de 540P, garantindo alta densidade de informações e forte consistência do conteúdo gerado. Os resultados da avaliação mostram que o Step-Video-T2V apresenta excelente desempenho em termos de obediência a instruções, suavidade de movimento, razoabilidade física e estética, superando significativamente os melhores modelos de vídeo de código aberto existentes no mercado.
Atualmente, esses dois modelos já estão disponíveis no aplicativo Yuewen para desenvolvedores experimentarem e fornecerem valiosas sugestões.
O modelo de geração de vídeo Step-Video-T2V da Jieyue demonstra uma capacidade de geração excepcional em movimentos complexos, personagens estéticos e imaginação visual. Ele consegue entender instruções com precisão e auxiliar eficientemente os criadores de vídeo na apresentação de suas ideias criativas. Seja um balé elegante e gracioso, um karatê intenso, um badminton emocionante ou um mergulho de alta velocidade, o Step-Video-T2V pode gerar imagens realistas e que obedecem às leis da física.
Além disso, ele suporta vários métodos de movimento de câmera e alternância de ângulos, podendo gerar efeitos visuais com movimentos de câmera amplos. As imagens de personagens geradas são mais realistas e vibrantes, ricas em detalhes e com expressões naturais.
GitHub:
https://github.com/stepfun-ai/Step-Audio
Hugging Face:
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Relatório técnico:
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf