Lanzamiento de Vidu 1.5, el modelo de generación de video de Shengshu Technology: Supera el desafío de la "consistencia de múltiples sujetos"

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Nov 13, 2024

540

Cien días después del lanzamiento de Vidu, Shengshu Technology se enorgullece en anunciar el lanzamiento de la versión 1.5 de Vidu, un avance que alcanza un nivel mundialmente líder, especialmente en la comprensión de entradas diversas y en superar el desafío de la "consistencia".

El lanzamiento de Vidu 1.5 marca la entrada de los modelos visuales en una nueva era de "contexto", acelerando la llegada de la Inteligencia Artificial General (AGI). Desde su lanzamiento global, Vidu ha contado con la capacidad de generar consistencia de personajes, resolviendo un punto crítico en la generación de videos mediante el bloqueo de las características faciales. En septiembre, Vidu fue pionero a nivel mundial en el lanzamiento de la función de "consistencia del sujeto", extendiendo la consistencia facial a la consistencia corporal completa, e incluyendo animales, objetos, personajes virtuales y cualquier otro sujeto. Los avances tecnológicos de Vidu se centran en tres aspectos: control preciso de sujetos complejos, consistencia natural de las características faciales y expresiones dinámicas de los personajes, y consistencia multi-sujeto.

微信截图_20241113135537.png

微信截图_20241113135531.png

Vidu 1.5 muestra una nueva "emergencia inteligente" de los modelos visuales, demostrando su poderosa capacidad de aprendizaje contextual. Esto significa que los modelos visuales no solo poseen la capacidad de comprender e imaginar, sino que también pueden gestionar la memoria durante el proceso de generación. Vidu 1.5 mantiene su eficiencia de generación líder en la industria, generando un video en menos de 30 segundos. Siguiendo el principio de universalidad y la misma filosofía de diseño que los LLM (modelos de lenguaje grandes), Vidu unifica todos los problemas como entrada y salida visual, utilizando un solo Transformer para modelar entradas y salidas de longitud variable, y obteniendo inteligencia de la compresión de datos de video.

El lanzamiento de Vidu 1.5 no solo mejora la controlabilidad de los modelos de video, sino que también, a través de entradas diversas y flexibles, logra una generación consistente de múltiples ángulos, múltiples sujetos y múltiples elementos. Esto marca la emergencia de la inteligencia visual y acelera la llegada de la AGI. Vidu ya no es solo un generador de video de alta calidad y alta eficiencia; también puede integrar información contextual y memoria durante el proceso de generación, un "gran salto" para la inteligencia modal visual. Los modelos visuales tendrán una capacidad cognitiva más fuerte, convirtiéndose en una pieza importante del rompecabezas de la AGI.

Dirección de prueba: www.vidu.studio

Wuhan lanza la iniciativa “IA +”: proyectos individuales pueden recibir hasta 20 millones de yuanes

Recientemente, Wuhan publicó una serie de medidas políticas para promover el desarrollo de la industria de la inteligencia artificial, anunciando el lanzamiento de la iniciativa “Inteligencia Artificial +” este año, con el objetivo de impulsar la aplicación de modelos de lenguaje grandes en más de 20 sectores. Esta iniciativa se basa en las “Medidas políticas de Wuhan para promover el desarrollo de la industria de la inteligencia artificial”, e incluye diez medidas principales, como el apoyo a los avances tecnológicos, el aumento de la potencia de cálculo, la promoción de la innovación en modelos, etc., con el objetivo de acelerar la construcción de un ecosistema de cadena industrial completa de inteligencia artificial. Las políticas se centrarán en las aplicaciones prácticas, concentrando los esfuerzos en los elementos centrales como la potencia de cálculo, los modelos, los datos y el talento.

¡La proliferación de artículos reescritos con IA! Toutiao: Mayor detección de IA y acciones offline para 2025

En el "Día de la apertura de la gobernanza de la plataforma Toutiao" celebrado hoy, Yan Mengru, responsable de operaciones de seguridad, reveló los resultados de la gobernanza de la plataforma en 2024 y la planificación para 2025. Señaló que la tecnología de IA ha reducido el umbral para la creación de contenido de baja calidad mediante el plagio, y herramientas como "IA de hormiga" han acelerado la proliferación de contenido homogéneo. Los datos muestran que en 2024, la plataforma procesó un total de 7,81 millones de artículos de contenido homogéneo, prohibió 63.000 cuentas infractoras y cooperó con la policía en dos casos de pandillas locales que difundían rumores homogéneos, publicando 6 comunicados sobre la gobernanza. Yan Mengru analizó que el plagio con IA...

Noticias de IA

Lanzamiento de Vidu 1.5, el modelo de generación de video de Shengshu Technology: Supera el desafío de la "consistencia de múltiples sujetos"

AIbase基地

Noticias de IA relacionadas recomendadas

Honor y Alibaba colaboran en el campo de la IA: ya se integraron Qianwen, Wanxiang y otros en el agente inteligente YOYO

Honor YOYO se fusiona con el gran modelo de Alibaba para definir el próximo sistema operativo de IA

Wuhan lanza la iniciativa “IA +”: proyectos individuales pueden recibir hasta 20 millones de yuanes

¡La proliferación de artículos reescritos con IA! Toutiao: Mayor detección de IA y acciones offline para 2025