Recentemente, uma equipe de pesquisa da Universidade de Nanjing, em colaboração com a ByteDance e a Universidade do Sudoeste, lançou uma tecnologia inovadora — STAR (Spatial-Temporal Augmentation with Text-to-Video Models), que visa utilizar modelos de texto para vídeo para realizar o processamento de super-resolução de vídeos do mundo real. Essa tecnologia combina métodos de aumento espaço-temporal, podendo melhorar eficazmente a qualidade de vídeos de baixa resolução, especialmente aqueles baixados de plataformas de compartilhamento de vídeo.

image.png

Para facilitar o uso por pesquisadores e desenvolvedores, a equipe de pesquisa já lançou no GitHub uma versão pré-treinada do modelo STAR, incluindo dois modelos: I2VGen-XL e CogVideoX-5B, além do código de inferência. O lançamento dessas ferramentas marca um avanço significativo no campo do processamento de vídeo.

O processo de uso do modelo é relativamente simples. Primeiro, o usuário precisa baixar o modelo STAR pré-treinado do HuggingFace e colocá-lo no diretório especificado. Em seguida, prepare o arquivo de vídeo a ser testado e selecione a opção de prompt de texto apropriada, incluindo sem prompt, geração automática ou entrada manual de prompt. O usuário só precisa ajustar as configurações de caminho no script para processar facilmente a super-resolução do vídeo.

Este projeto projetou especificamente dois modelos baseados em I2VGen-XL, usados para diferentes graus de processamento de degradação de vídeo, garantindo que várias necessidades possam ser atendidas. Além disso, o modelo CogVideoX-5B suporta especificamente o formato de entrada 720x480, fornecendo uma opção flexível para cenários específicos.

Esta pesquisa não apenas fornece novas ideias para o desenvolvimento da tecnologia de super-resolução de vídeo, mas também abre novas direções de pesquisa para pesquisadores em áreas relacionadas. A equipe de pesquisa expressa sua gratidão pelas tecnologias de ponta I2VGen-XL, VEnhancer, CogVideoX e OpenVid-1M, considerando-as a base de seu projeto.

Acesso ao projeto:https://github.com/NJU-PCALab/STAR

Destaques:

🌟 A nova tecnologia STAR combina modelos de texto para vídeo para realizar super-resolução de vídeo, melhorando a qualidade do vídeo.

🛠️ A equipe de pesquisa já lançou modelos pré-treinados e código de inferência, com um processo de uso simples e claro.

📩 Fornece informações de contato e incentiva os usuários a se comunicarem e discutirem com a equipe de pesquisa.