Mark Hamilton, doctorant en génie électrique et informatique au Massachusetts Institute of Technology (MIT), membre du laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL), souhaite exploiter la puissance de la machine pour comprendre la communication animale. Pour ce faire, il a commencé par créer un système capable d'apprendre le langage humain « à partir de zéro ».

image.png

Accès au produit :https://top.aibase.com/tool/denseav

Cet algorithme, nommé DenseAV, apprend la signification du langage en associant les signaux audio et vidéo. Après avoir entraîné DenseAV à un jeu d'appariement audio-vidéo, Hamilton et ses collègues ont observé les pixels sur lesquels le modèle se concentrait lorsqu'il entendait un son. Par exemple, lorsqu'on dit « chien », l'algorithme localise immédiatement un chien dans le flux vidéo. Cette sélection de pixels permet de comprendre ce que l'algorithme considère comme la signification d'un mot.

image.png

Intéressant, DenseAV recherche également un chien dans le flux vidéo lorsqu'il entend un aboiement. Cela a intrigué les chercheurs, qui ont exploré la capacité de l'algorithme à distinguer le mot « chien » de l'aboiement en lui donnant un « double cerveau ». Ils ont découvert qu'un côté de DenseAV se concentrait naturellement sur le langage, comme le mot « chien », tandis que l'autre se concentrait sur le son, comme l'aboiement. Cela montre que DenseAV a non seulement appris la signification des mots et la localisation des sons, mais aussi à distinguer les types de connexions inter-modalités, sans intervention humaine ni entrée textuelle.

Caractéristiques principales de DenseAV :

1. DenseAV est une architecture à double encodeur ancrée qui apprend des caractéristiques haute résolution, sémantiques et alignées audiovisuellement en regardant des vidéos.

2. Il peut découvrir la « signification » des mots et la « localisation » des sons sans supervision de localisation explicite.

3. DenseAV peut automatiquement distinguer l'association entre la signification des mots et la localisation des sons sans supervision.

4. Il utilise l'apprentissage contrastif audio-visuel pour relier le son au monde visuel, permettant un apprentissage non supervisé.

5. Le modèle utilise une similarité contrastive basée sur le produit scalaire interne entre les jetons de représentation audio et visuelle locale, améliorant considérablement sa capacité de localisation d'informations.

6. DenseAV peut naturellement organiser ses caractéristiques en caractéristiques sonores et linguistiques sans savoir ce qu'est un son ou un langage.

7. DenseAV surpasse ImageBind, le modèle de pointe précédent, en matière de recherche inter-modalités, tout en utilisant moins de la moitié des paramètres.

Une application de cette méthode consiste à apprendre à partir des nombreuses vidéos publiées quotidiennement sur Internet. Les chercheurs espèrent que cette approche permettra de comprendre de nouvelles langues sans forme d'écriture, comme la communication des dauphins ou des baleines. À terme, ils souhaitent l'utiliser pour découvrir des corrélations entre d'autres signaux, comme les ondes sismiques émises par la Terre et les conditions géologiques.

L'un des défis majeurs de l'équipe est d'apprendre le langage sans aucune entrée textuelle. L'objectif est d'éviter l'utilisation de modèles linguistiques pré-entraînés et de redécouvrir la signification du langage à partir de zéro, une approche inspirée de la façon dont les enfants apprennent le langage par observation et écoute de leur environnement.

Adresse de l'article : https://arxiv.org/abs/2406.05629