Recentemente, a equipe de pesquisa da Universidade Tsinghua lançou seu mais recente resultado de pesquisa de código aberto - Video-T1. O cerne desta tecnologia reside na escalonamento em tempo de teste (Test-Time Scaling, TTS), que visa melhorar significativamente a qualidade do vídeo gerado e a consistência com as instruções de texto, injetando mais recursos computacionais na etapa de inferência do processo de geração de vídeo, sem a necessidade de um caro re-treinamento do modelo. Este método inovador abre novas possibilidades para o campo da geração de vídeo.

QQ_1742970490034.png

O que é "escalonamento em tempo de teste"?

No campo dos grandes modelos de linguagem (LLMs), os pesquisadores descobriram que aumentar a computação na fase de teste pode melhorar efetivamente o desempenho do modelo. O Video-T1 aproveita essa ideia e a aplica ao campo da geração de vídeo. Simplificando, os modelos tradicionais de geração de vídeo geram diretamente um vídeo após receberem as instruções de texto.

Já o Video-T1, que utiliza TTS, é como se realizasse múltiplas "pesquisas" e "filtragens" durante o processo de geração de vídeo. Ele gera vários vídeos candidatos e usa um "validador de teste" para avaliá-los, selecionando finalmente o vídeo de melhor qualidade. É como um artista meticuloso que experimenta vários métodos e detalhes antes de concluir sua obra final.

Tecnologia principal do Video-T1

O Video-T1 não aumenta diretamente o custo de treinamento, mas sim se concentra em como utilizar mais eficientemente as capacidades do modelo existente. Seu método principal pode ser entendido como a busca por uma trajetória de geração de vídeo ideal no "espaço de ruído" do modelo. Para alcançar esse objetivo, a equipe de pesquisa propôs duas principais estratégias de busca:

Busca linear aleatória (Random Linear Search): Este método amostra aleatoriamente vários ruídos gaussianos, permitindo que o modelo de geração de vídeo realize uma des-ruidificação gradual desses ruídos, gerando vários clipes de vídeo candidatos. Em seguida, um validador de teste classifica esses vídeos candidatos e, por fim, seleciona o vídeo com a pontuação mais alta.

Busca em árvore de quadros (Tree-of-Frames, ToF): Considerando que a des-ruidificação completa de todos os quadros simultaneamente acarretaria um custo computacional enorme, o ToF adota uma estratégia mais eficiente. Ele divide o processo de geração de vídeo em três etapas: primeiro, realiza um alinhamento de nível de imagem, que influencia a geração de quadros subsequentes; em seguida, utiliza instruções dinâmicas no validador de teste, focando na estabilidade do movimento e na coerência física, e guia o processo de busca com base no feedback; por fim, avalia a qualidade geral do vídeo e seleciona o vídeo com o maior alinhamento com as instruções de texto. A abordagem autorregressiva do ToF permite explorar as possibilidades de geração de vídeo de forma mais inteligente.

QQ_1742970605996.png

Efeitos notáveis do TTS

Os resultados experimentais mostram que, à medida que a computação em tempo de teste aumenta (ou seja, mais vídeos candidatos são gerados), o desempenho do modelo melhora continuamente. Isso significa que, mesmo com o mesmo modelo de geração de vídeo, o investimento de mais tempo de inferência pode produzir vídeos de maior qualidade e mais consistentes com as instruções de texto. Os pesquisadores realizaram experimentos em vários modelos de geração de vídeo, e os resultados mostraram que o TTS pode trazer uma melhoria de desempenho estável. Ao mesmo tempo, diferentes validadores de teste se concentram em diferentes aspectos de avaliação, portanto, também existem diferenças na taxa e no grau de melhoria de desempenho.

O método TTS do Video-T1 obteve melhorias significativas em categorias comuns de instruções (como cenários, objetos) e dimensões fáceis de avaliar (como qualidade de imagem). Observando a demonstração de vídeo fornecida oficialmente, pode-se ver que os vídeos processados pelo TTS apresentam melhorias significativas em nitidez, detalhes e aderência à descrição do texto. Por exemplo, no vídeo que descreve "um gato usando óculos de sol como salva-vidas na beira da piscina", após o processamento do TTS, a imagem do gato fica mais nítida e os movimentos do salva-vidas ficam mais naturais.

QQ_1742970632446.png

Desafios e perspectivas

Embora o TTS tenha trazido progressos significativos em muitos aspectos, os pesquisadores também apontam que, para alguns atributos potenciais difíceis de avaliar, como a fluidez do movimento e a consistência temporal (evitando cintilação da imagem), o efeito de melhoria do TTS é relativamente limitado. Isso ocorre principalmente porque esses atributos exigem um controle preciso da trajetória do movimento entre os quadros, e os modelos atuais de geração de vídeo ainda enfrentam desafios nesse aspecto.

O Video-T1, de código aberto da Universidade Tsinghua, fornece uma nova e eficaz maneira de melhorar a qualidade da geração de vídeo por meio de uma estratégia inovadora de escalonamento em tempo de teste. Ele não requer um caro re-treinamento, mas sim utiliza os recursos computacionais em tempo de inferência de forma mais inteligente, permitindo que os modelos existentes liberem seu potencial máximo. Com o aprofundamento das pesquisas futuras, temos motivos para acreditar que a tecnologia TTS desempenhará um papel cada vez mais importante no campo da geração de vídeo.

Projeto:https://top.aibase.com/tool/video-t1