Mark Hamilton, um doutorando em Engenharia Elétrica e Ciência da Computação do Massachusetts Institute of Technology (MIT), e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT, busca utilizar máquinas para compreender a comunicação animal. Para isso, ele começou criando um sistema capaz de aprender linguagem humana "do zero".

image.png

Acesso ao produto:https://top.aibase.com/tool/denseav

O algoritmo, chamado DenseAV, aprende o significado da linguagem correlacionando sinais de áudio e vídeo. Após treinar o DenseAV em um jogo de correspondência de áudio e vídeo, Hamilton e seus colegas observaram os pixels em que o modelo focava ao ouvir sons. Por exemplo, quando alguém dizia "cão", o algoritmo imediatamente procurava um cão no fluxo de vídeo. Essa seleção de pixels ajuda a descobrir o que o algoritmo considera ser o significado de uma palavra.

image.png

Curiosamente, quando o DenseAV ouvia um latido, ele também procurava um cão no fluxo de vídeo. Isso despertou o interesse dos pesquisadores, que exploraram se o algoritmo distinguia entre a palavra "cão" e o som de um latido, dando ao DenseAV um "cérebro duplo". Eles descobriram que um lado do DenseAV naturalmente se concentrava na linguagem, como a palavra "cão", enquanto o outro lado se concentrava em sons, como latidos. Isso indica que o DenseAV não apenas aprendeu o significado das palavras e a localização dos sons, mas também aprendeu a diferenciar os tipos dessas conexões multimodais sem intervenção humana ou qualquer entrada de texto.

 Características principais do DenseAV:

1. O DenseAV é uma arquitetura de codificador duplo baseada em terra, que aprende recursos de alta resolução, significado semântico e alinhamento áudio-visual ao assistir vídeos.

2. Ele pode descobrir o "significado" das palavras e a "localização" dos sons sem supervisão explícita de localização.

3. O DenseAV pode diferenciar automaticamente a associação entre o significado das palavras e a localização dos sons sem supervisão.

4. Ele usa o aprendizado contrastivo de áudio e vídeo para conectar o som ao mundo visual, permitindo o aprendizado não supervisionado.

5. O modelo usa similaridade contrastiva baseada no produto interno entre tokens de representação local de áudio e visual, melhorando significativamente sua capacidade de informações de localização.

6. O DenseAV pode organizar naturalmente suas características em características de som e linguagem sem saber o que é som e o que é linguagem.

7. Usando menos da metade dos parâmetros, o DenseAV supera o modelo de ponta anterior, ImageBind, na recuperação multi-modal.

Uma área de aplicação desse método é aprender com a grande quantidade de vídeos publicados diariamente na internet. Os pesquisadores afirmam que esperam que esse método possa ser usado para compreender novas linguagens sem forma de comunicação escrita, como a comunicação de golfinhos ou baleias. Finalmente, eles esperam que esse método possa ser usado para descobrir padrões associativos entre outros sinais, como o som de terremotos emitidos pela Terra e as condições geológicas.

Um grande desafio para a equipe é aprender linguagem sem nenhuma entrada de texto. Seu objetivo é evitar o uso de modelos de linguagem pré-treinados, redescobrindo o significado da linguagem do zero, um método inspirado em como as crianças aprendem linguagem através da observação e audição do ambiente.

Endereço do artigo:https://arxiv.org/abs/2406.05629