Cento e poucos dias após o lançamento da Vidu, a Shengshu Technology orgulhosamente anuncia o lançamento da nova versão Vidu 1.5, que alcançou avanços de nível mundial, especialmente na compreensão de entradas diversificadas e na superação do desafio da "consistência".

O lançamento do Vidu 1.5 marca a entrada dos modelos visuais em uma nova era de "contexto", acelerando a chegada da Inteligência Artificial Geral (AGI). Desde seu lançamento global, o Vidu já possuía a capacidade de geração de consistência de personagens, resolvendo um ponto crítico na geração de vídeos através do bloqueio das características faciais. Em setembro, a Vidu lançou globalmente, em primeira mão, a função de "consistência de sujeito", expandindo a consistência facial para a consistência corporal completa e abrangendo animais, objetos, personagens virtuais e qualquer outro sujeito. Os avanços tecnológicos da Vidu se concentram em três aspectos: controle preciso de sujeitos complexos, consistência natural das características faciais e expressões dinâmicas de pessoas e consistência multi-sujeito.

微信截图_20241113135537.png

微信截图_20241113135531.png

O Vidu 1.5 demonstra uma nova "emergência de inteligência" dos modelos visuais, mostrando sua poderosa capacidade de aprendizado contextual. Isso significa que os modelos visuais não apenas possuem a capacidade de compreensão e imaginação, mas também podem gerenciar a memória durante o processo de geração. O Vidu 1.5 mantém sua eficiência de geração líder do setor, gerando um vídeo em menos de 30 segundos. Seguindo o conceito de universalidade e a mesma filosofia de design dos LLMs (Modelos de Linguagem Grandes), o Vidu unifica todos os problemas como entrada e saída visual, utilizando um único Transformer para modelar uniformemente entradas e saídas longas e obtendo inteligência da compressão de dados de vídeo.

O lançamento do Vidu 1.5 não apenas aprimora a controlabilidade dos modelos de vídeo, mas também, através de entradas multifacetadas e flexíveis, realiza a geração consistente de múltiplos ângulos, múltiplos sujeitos e múltiplos elementos. Isso marca a emergência da inteligência visual e acelera a chegada da AGI. O Vidu não é mais apenas um gerador de vídeo de alta qualidade e alta eficiência; ele também pode incorporar informações contextuais e memória durante o processo de geração, representando um "grande salto" na inteligência modal visual. Os modelos visuais terão capacidades cognitivas mais fortes, tornando-se uma peça importante do quebra-cabeça da AGI.

Endereço de Experiência: www.vidu.studio