En el campo de la generación de video con inteligencia artificial, los modelos de difusión han llamado la atención por su rendimiento excepcional. Sin embargo, su inherente característica de eliminación de ruido iterativa hace que el proceso de generación sea lento y costoso computacionalmente, convirtiéndose en un cuello de botella clave que limita su aplicación generalizada. Recientemente, un equipo de investigación de la Universidad de Aeronáutica y Astronáutica de Beijing, la Universidad de Hong Kong y el Laboratorio de Inteligencia Artificial de Shanghai ha publicado una tecnología innovadora llamada AccVideo. Este método, a través de un novedoso y eficiente método de destilación y la combinación de conjuntos de datos sintéticos, ha logrado aumentar la velocidad de generación de modelos de difusión de video en asombrosos 8.5 veces.
Los modelos de difusión de video existentes muestran un excelente rendimiento en la generación de videos de alta calidad, pero su proceso iterativo de eliminación de ruido requiere una gran cantidad de pasos de inferencia. Esto significa que los usuarios deben esperar un tiempo considerable para obtener el video final, y también impone requisitos computacionales muy altos, lo que sin duda limita su adopción en aplicaciones prácticas. Para abordar este problema, los investigadores han estado explorando métodos para acelerar los modelos de difusión, y la aparición de AccVideo aporta una nueva perspectiva para resolver este desafío.
El avance central de AccVideo: datos sintéticos y guía eficiente
El núcleo de AccVideo radica en su innovador método de destilación, que utiliza inteligentemente conjuntos de datos sintéticos para acelerar los modelos de difusión de video. El equipo de investigación primero utiliza modelos de difusión de video preentrenados para generar múltiples trayectorias de eliminación de ruido efectivas, construyendo así un conjunto de datos sintéticos de alta calidad. A diferencia de los métodos de destilación anteriores, el método de AccVideo evita el uso de una gran cantidad de puntos de datos redundantes, mejorando así la eficiencia de la destilación.
Sobre esta base, AccVideo diseña una estrategia de guía de pocos pasos basada en trayectorias. Esta estrategia aprovecha al máximo los puntos de datos clave del conjunto de datos sintéticos, permitiendo que el modelo "alumno" aprenda el proceso de eliminación de ruido del modelo "maestro" (es decir, el modelo de difusión de video preentrenado) en menos pasos, lo que permite una generación de video rápida.
Calidad y eficiencia juntas: el entrenamiento adversarial mejora la calidad del video
Para aprovechar al máximo la información de la distribución de datos capturada por el conjunto de datos sintéticos en cada paso de difusión, AccVideo también introduce una estrategia de entrenamiento adversarial. De esta manera, AccVideo puede alinear eficazmente la distribución de salida del modelo alumno con la distribución del conjunto de datos sintéticos, mejorando significativamente la calidad del video generado.
Los resultados experimentales muestran que AccVideo, manteniendo un rendimiento comparable al del modelo maestro, logra una mejora de la velocidad de generación de hasta 8.5 veces. Aún más impresionante es que AccVideo puede generar videos de alta calidad de 5 segundos, con una resolución de 720x1280 y una velocidad de fotogramas de 24 fps. En comparación con los métodos de aceleración anteriores, AccVideo muestra ventajas más fuertes en términos de calidad y resolución de video.
Amplias perspectivas de aplicación: la generación de videos largos y de alta calidad ya no es un problema
El avance innovador de AccVideo presagia nuevas oportunidades para el desarrollo de la tecnología de generación de video de alta calidad. Su capacidad de generación eficiente, combinada con una excelente calidad y resolución de video, le confiere un enorme potencial de aplicación en áreas como la generación de video a partir de texto. Por ejemplo, los usuarios pueden generar rápidamente videos de hasta 5 segundos, con imágenes detalladas y contenido rico, a partir de descripciones de texto simples, expandiendo enormemente las posibilidades de creación de video.
Según los resultados cualitativos presentados por el equipo de investigación, AccVideo puede representar con alta calidad escenas complejas y temas diversos, ya sea una mujer a la moda en las concurridas calles de Tokio, escenas de animales realistas o imágenes de ciencia ficción llenas de imaginación. Esto demuestra su poderosa capacidad de generación en escenas complejas y temas diversos.
El lanzamiento de AccVideo es sin duda un hito importante en el campo de la generación de video. Su aceleración de 8.5 veces y su salida de video de alta calidad resuelven eficazmente los problemas de lentitud y alto costo de los modelos de difusión existentes, sentando una base sólida para la creación y aplicación de contenido de video más amplio y conveniente en el futuro.
Proyecto:https://top.aibase.com/tool/accvideo