ByteDance lanza el potente modelo de generación de video Doubao: videos de 10 segundos y coherencia multi-cámara

En la exhibición de innovación de IA de 2024, Volcano Engine Technology Co., Ltd. anunció el lanzamiento de Doubao, un modelo de generación de video, el nuevo miembro de su familia de modelos grandes.

Tan Dai, presidente de Volcano Engine, afirmó que el modelo de generación de video Doubao presenta varias capacidades avanzadas en la generación de video, incluyendo una comprensión semántica precisa, interacción multi-acción y multi-sujeto, poderosos efectos dinámicos y la capacidad de generar múltiples tomas con coherencia.

微信截图_20240924152238.png

Este modelo puede comprender y seguir instrucciones complejas, lograr la interacción entre múltiples sujetos y realizar transiciones impresionantes entre tomas con gran dinamismo en el sujeto del video. Además, mantiene la coherencia en los cambios de toma, narra una historia completa en 10 segundos y admite diversos estilos y proporciones, como blanco y negro, animación 3D y pintura china.

Asimismo, el modelo admite diversos estilos, incluyendo blanco y negro, animación 3D, animación 2D y pintura china, y se adapta a diversas proporciones como 1:1, 3:4, 4:3, 16:9, 9:16 y 21:9, para adaptarse a diferentes terminales y formatos de imagen.

El modelo de generación de video Doubao no solo mejora la alta fidelidad de la calidad de imagen del video, sino que también permite transiciones impresionantes entre tomas con gran dinamismo en el sujeto del video, ofreciendo un rico lenguaje cinematográfico con funciones como zoom, giro, panorámica, escalado y seguimiento de objetivos.

El gran modelo de generación de video Doubao incluye dos versiones principales: Doubao-Generación de video PixelDance y Doubao-Generación de video-Seaweed.

En Volcano Engine, puede ver las dos versiones de PixelDance y Seaweed de Doubao-Generación de video.

I. Doubao-Generación de video PixelDance

PixelDance V1.4 es un gran modelo de generación de video con estructura DiT desarrollado por el equipo de ByteDance Research, que admite la generación de video a partir de texto e imagen, y puede generar en una sola vez fragmentos de video de hasta 10 segundos.

Este modelo permite a los usuarios generar videos a partir de texto e imágenes. Posee una excelente capacidad de comprensión semántica, generando rápidamente fragmentos de video de alta calidad, aplicables a la creación cinematográfica, publicidad y otros escenarios.

Ejemplos de generación de la versión PixelDance:

Comprensión semántica precisa

PixelDance V1.4 puede seguir instrucciones complejas (prompts), desbloqueando instrucciones de acción con secuencias de tiempo y la capacidad de interacción entre múltiples sujetos.

Prompt: Un hombre entra en escena, una mujer voltea a mirarlo, se abrazan, la gente alrededor se mueve en el fondo.

Dinamismo potente y tomas impresionantes

Admite un gran número de recursos cinematográficos, controlando la perspectiva con flexibilidad para ofrecer una experiencia del mundo real.

Generación de múltiples tomas con coherencia

Tiene la capacidad de generar automáticamente cortometrajes con múltiples tomas, superando con éxito el desafío técnico de la coherencia en los cambios de toma. Puede narrar una historia con introducción, desarrollo, clímax y desenlace en 10 segundos. Se pueden realizar múltiples cambios de toma en un solo prompt, manteniendo la coherencia del sujeto, el estilo y la atmósfera.

Compatibilidad con múltiples estilos y proporciones

La estructura Transformer optimizada profundamente mejora en gran medida la capacidad de generalización de la generación de video, admitiendo diversos estilos como blanco y negro, animación 3D, animación 2D, pintura china, acuarela y pintura gouache, y seis proporciones: 1:1, 3:4, 4:3, 16:9, 9:16 y 21:9.

II. Doubao-Generación de video-Seaweed

Este modelo admite dos métodos de generación de video: video a partir de texto y video a partir de imagen. Esta tecnología se basa en la estructura Transformer, utilizando un espacio latente de compresión espacio-temporal para el entrenamiento. El modelo admite de forma nativa la generación multi-resolución, adaptándose a pantallas horizontales y verticales, y puede adaptarse y mantener la fidelidad según la resolución de la imagen de alta definición introducida por el usuario. La salida predeterminada es una resolución de 720p, 24 fps y una duración de 5 segundos, pudiendo extenderse dinámicamente a 20-30 segundos.

Ejemplos de generación de la versión Seaweed:

Realismo extremo, detalles ricos y sutiles

Prompt: Un panda gigante disfrutando de una olla caliente.

Colores y luces profesionales

Dinamismo fluido

Se espera que el lanzamiento del modelo de generación de video Doubao aporte innovación y eficiencia a diversos sectores, como el marketing electrónico, la educación animada, el turismo urbano y los guiones cortos (videoclips musicales, cortometrajes, sketches, etc.). Volcano Engine afirma que el lanzamiento de este modelo acelerará significativamente la innovación en las aplicaciones AIGC.

Volcano Engine se compromete a seguir mejorando e iterando las capacidades del modelo, explorando su aplicación en más ámbitos y proporcionando el impulso para la inteligencia en la nube de las empresas.

Los datos muestran que, hasta septiembre, el uso diario de tokens del gran modelo Doubao superó los 1,3 billones, con un crecimiento de más de 10 veces en 4 meses. En cuanto a la multimodalidad, el modelo Doubao de generación de imágenes a partir de texto genera diariamente 50 millones de imágenes, y además, Doubao procesa diariamente 850.000 horas de audio.

Noticias de IA

ByteDance lanza el potente modelo de generación de video Doubao: videos de 10 segundos y coherencia multi-cámara

AIbase基地