Recientemente, un equipo de investigación de la Universidad de Nanjing, en colaboración con ByteDance y la Universidad del Suroeste, ha presentado una tecnología innovadora: STAR (Spatial-Temporal Augmentation with Text-to-Video Models). Su objetivo es lograr una superresolución de videos del mundo real utilizando modelos de texto a video. Esta tecnología, que incorpora métodos de aumento espacio-temporal, mejora eficazmente la calidad de los videos de baja resolución, especialmente útiles para videos de baja definición descargados de plataformas para compartir videos.
Para facilitar su uso a investigadores y desarrolladores, el equipo de investigación ha publicado en GitHub una versión preentrenada del modelo STAR, incluyendo dos modelos: I2VGen-XL y CogVideoX-5B, junto con el código de inferencia. El lanzamiento de estas herramientas marca un avance significativo en el campo del procesamiento de video.
El proceso de uso del modelo es relativamente sencillo. Primero, el usuario debe descargar el modelo STAR preentrenado de HuggingFace y colocarlo en el directorio especificado. Luego, se prepara el archivo de video a probar y se selecciona la opción de aviso de texto adecuada, incluyendo sin aviso, generación automática o entrada manual de aviso. Solo necesita ajustar la configuración de la ruta en el script para procesar fácilmente la superresolución del video.
El proyecto incluye específicamente dos modelos basados en I2VGen-XL, diseñados para diferentes grados de degradación de video, asegurando que se puedan satisfacer diversas necesidades. Además, el modelo CogVideoX-5B admite específicamente el formato de entrada 720x480, ofreciendo una opción flexible para escenarios específicos.
Esta investigación no solo proporciona nuevas ideas para el desarrollo de la tecnología de superresolución de video, sino que también abre nuevas vías de investigación para los investigadores del campo. El equipo de investigación agradece las contribuciones de tecnologías de vanguardia como I2VGen-XL, VEnhancer, CogVideoX y OpenVid-1M, reconociendo su papel fundamental en el proyecto.
Enlace al proyecto: https://github.com/NJU-PCALab/STAR
Puntos clave:
🌟 La nueva tecnología STAR, que combina modelos de texto a video, permite la superresolución de video y mejora la calidad del video.
🛠️ El equipo de investigación ha publicado modelos preentrenados y código de inferencia, con un proceso de uso simple e intuitivo.
📩 Se proporciona información de contacto para fomentar la comunicación y el intercambio con el equipo de investigación.