Vista-LLaMA
Utiliza a relação equidistante entre tokens visuais e tokens de linguagem para alcançar uma descrição de vídeo confiável.
Produto ComumVídeoCriação de VídeoProdução de Animação com IA
Vista-LLaMA é um modelo de linguagem de vídeo avançado, projetado para melhorar a compreensão de vídeo. Ao manter uma distância consistente entre tokens visuais e tokens de linguagem, independentemente do comprimento do texto gerado, ele reduz a geração de texto não relacionado ao conteúdo do vídeo. Este método omite a codificação de posição relativa ao calcular os pesos de atenção entre tokens visuais e de texto, tornando a influência dos tokens visuais mais significativa no processo de geração de texto. O Vista-LLaMA também introduz um projetor visual sequencial, capaz de projetar o quadro de vídeo atual em tokens do espaço de linguagem, capturando as relações temporais dentro do vídeo e reduzindo a necessidade de tokens visuais. Em vários benchmarks de perguntas e respostas em vídeo abertos, o modelo apresentou desempenho significativamente superior a outros métodos.