Cien días después del lanzamiento de Vidu, Shengshu Technology se enorgullece en anunciar el lanzamiento de la versión 1.5 de Vidu, un avance que alcanza un nivel mundialmente líder, especialmente en la comprensión de entradas diversas y en superar el desafío de la "consistencia".

El lanzamiento de Vidu 1.5 marca la entrada de los modelos visuales en una nueva era de "contexto", acelerando la llegada de la Inteligencia Artificial General (AGI). Desde su lanzamiento global, Vidu ha contado con la capacidad de generar consistencia de personajes, resolviendo un punto crítico en la generación de videos mediante el bloqueo de las características faciales. En septiembre, Vidu fue pionero a nivel mundial en el lanzamiento de la función de "consistencia del sujeto", extendiendo la consistencia facial a la consistencia corporal completa, e incluyendo animales, objetos, personajes virtuales y cualquier otro sujeto. Los avances tecnológicos de Vidu se centran en tres aspectos: control preciso de sujetos complejos, consistencia natural de las características faciales y expresiones dinámicas de los personajes, y consistencia multi-sujeto.

微信截图_20241113135537.png

微信截图_20241113135531.png

Vidu 1.5 muestra una nueva "emergencia inteligente" de los modelos visuales, demostrando su poderosa capacidad de aprendizaje contextual. Esto significa que los modelos visuales no solo poseen la capacidad de comprender e imaginar, sino que también pueden gestionar la memoria durante el proceso de generación. Vidu 1.5 mantiene su eficiencia de generación líder en la industria, generando un video en menos de 30 segundos. Siguiendo el principio de universalidad y la misma filosofía de diseño que los LLM (modelos de lenguaje grandes), Vidu unifica todos los problemas como entrada y salida visual, utilizando un solo Transformer para modelar entradas y salidas de longitud variable, y obteniendo inteligencia de la compresión de datos de video.

El lanzamiento de Vidu 1.5 no solo mejora la controlabilidad de los modelos de video, sino que también, a través de entradas diversas y flexibles, logra una generación consistente de múltiples ángulos, múltiples sujetos y múltiples elementos. Esto marca la emergencia de la inteligencia visual y acelera la llegada de la AGI. Vidu ya no es solo un generador de video de alta calidad y alta eficiencia; también puede integrar información contextual y memoria durante el proceso de generación, un "gran salto" para la inteligencia modal visual. Los modelos visuales tendrán una capacidad cognitiva más fuerte, convirtiéndose en una pieza importante del rompecabezas de la AGI.

Dirección de prueba: www.vidu.studio