Los científicos de Alibaba Group han presentado VACE, un modelo de inteligencia artificial generalizado diseñado para unificar el procesamiento de una amplia gama de tareas de generación y edición de vídeo.
El núcleo de VACE es una arquitectura de transformador de difusión mejorada, cuya innovación radica en un nuevo formato de entrada llamado "unidad de condición de vídeo" (VCU). La VCU destila múltiples modalidades de entrada, como indicaciones de texto, imágenes o secuencias de vídeo de referencia y máscaras espaciales, en una representación unificada. A través de un mecanismo especializado, coordina las diferentes entradas y evita conflictos.
Desacople conceptual para un control preciso
VACE emplea la técnica de "desacople conceptual" para segmentar la imagen en áreas editables y fijas, permitiendo un control preciso sobre el contenido que se modifica y el que se conserva. La información visual se divide en regiones "activas" e "inactivas" mediante máscaras, y se incrusta en un espacio de características compartido junto con la entrada de texto. Para garantizar la coherencia entre fotogramas de vídeo, las características se asignan a un espacio latente que coincide con la estructura del transformador de difusión. Una capa de incrustación temporal asegura que el modelo comprenda la coherencia temporal de la secuencia, mientras que el mecanismo de atención relaciona las características de diferentes modalidades y pasos de tiempo.
VACE admite cuatro tareas principales: generación de vídeo a partir de texto, síntesis de vídeo basada en referencias, edición de vídeo a vídeo y edición de objetivos basada en máscaras. Sus aplicaciones son amplias, incluyendo la eliminación de personas, la generación de personajes animados, la sustitución de objetos y la extensión de fondos.
Entrenamiento y evaluación del modelo
El equipo de investigación se centró inicialmente en dibujos y garabatos para admitir la generación de vídeo a partir de texto, añadiendo gradualmente imágenes de referencia y pasando a tareas de edición más avanzadas. Los datos de entrenamiento provienen de vídeos de internet, que se han mejorado mediante filtrado automático, segmentación y anotaciones profundas de postura. Para evaluar el rendimiento de VACE, los investigadores crearon un benchmark que contiene 480 casos que abarcan 12 tareas de edición de vídeo. Los resultados experimentales muestran que VACE supera a los modelos de código abierto especializados en cuanto a métricas cuantitativas y estudios de usuarios, pero aún existe una brecha con modelos comerciales como Vidu y Kling en la generación de vídeo a partir de referencias.
Los investigadores de Alibaba consideran que VACE es un paso importante hacia un modelo de vídeo generalizado y multimodal. En el futuro, se ampliará mediante conjuntos de datos más grandes y mayor potencia de cálculo. Parte del código del modelo se publicará en GitHub. VACE, junto con una serie de modelos de lenguaje grande lanzados recientemente por Alibaba (como la serie Qwen), forma parte de su ambiciosa estrategia de inteligencia artificial. Otros gigantes tecnológicos chinos, incluido ByteDance, también están desarrollando activamente tecnologías de inteligencia artificial para vídeo, y algunos de sus resultados ya superan a los productos occidentales similares.