Recentemente, Wenyi Yu e sua equipe da Universidade Nacional de Cingapura apresentaram uma nova tecnologia chamada video-SALMONN, capaz não apenas de compreender sequências de quadros visuais, eventos de áudio e música em vídeos, mas também, e mais importante, o conteúdo de fala nos vídeos. Essa tecnologia representa um grande avanço na compreensão de conteúdo de vídeo por máquinas.

O video-SALMONN é um modelo de linguagem grande áudio-visual de ponta a ponta (av-LLM) que conecta codificadores de áudio e vídeo pré-treinados ao corpo principal de um modelo de linguagem grande por meio de uma nova arquitetura de Q-Former causal multi-resolução (MRC Q-Former). Essa arquitetura captura informações temporais de grão fino necessárias para a compreensão da fala, ao mesmo tempo em que garante o processamento eficiente de outros elementos de vídeo.

image.png

Para melhorar o equilíbrio no processamento dos diferentes elementos de vídeo, a equipe de pesquisa propôs métodos de treinamento especializados, incluindo perda de diversidade e estratégias de treinamento misto de áudio e vídeo não pareados, para evitar a dominância de quadros de vídeo ou de uma modalidade específica.

No novo benchmark de avaliação de áudio-visual-fala (SAVE), o video-SALMONN obteve uma melhoria de mais de 25% na precisão absoluta em tarefas de perguntas e respostas em vídeo (video-QA) e mais de 30% em tarefas de perguntas e respostas áudio-visuais envolvendo fala humana. Além disso, o video-SALMONN demonstrou capacidades excepcionais de compreensão e raciocínio de vídeo em tarefas inéditas para outros av-LLMs.

O núcleo do video-SALMONN é a arquitetura MRC Q-Former, que alinha recursos de entrada de áudio e vídeo sincronizados e representações espaciais de texto em três escalas temporais diferentes, atendendo às necessidades de diferentes tarefas em relação à dependência de diferentes elementos de vídeo. Além disso, para fortalecer a relação causal temporal entre quadros de vídeo consecutivos, o MRC Q-Former inclui uma estrutura de autoatenção causal com máscara causal especial.

A apresentação do video-SALMONN não apenas fornece uma nova ferramenta de pesquisa para a comunidade acadêmica, mas também abre amplas possibilidades para aplicações práticas. Ele torna a interação entre tecnologia e humanos mais natural e intuitiva, reduzindo a dificuldade de aprendizado para usuários, especialmente crianças e idosos. Também tem o potencial de melhorar a acessibilidade da tecnologia para pessoas com deficiência motora, por exemplo.

A criação do video-SALMONN é um passo importante em direção à inteligência artificial geral (AGI). Ao integrar a entrada de fala com as entradas de áudio e visual não verbais existentes, esses modelos obterão uma compreensão abrangente da interação humana e do ambiente, permitindo sua aplicação em áreas mais amplas.

O desenvolvimento dessa tecnologia terá, sem dúvida, um impacto profundo na análise de conteúdo de vídeo, em aplicações educacionais e na melhoria da qualidade de vida das pessoas. Com o avanço contínuo da tecnologia, podemos acreditar que a IA futura será mais inteligente e atenderá melhor às necessidades humanas.

Endereço do artigo: https://arxiv.org/html/2406.15704v1