Mark Hamilton, estudiante de doctorado en Ingeniería Eléctrica e Informática del Instituto Tecnológico de Massachusetts (MIT), y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, busca utilizar la máquina para comprender la comunicación animal. Para ello, comenzó creando un sistema capaz de aprender el lenguaje humano "desde cero".
Acceso al producto:https://top.aibase.com/tool/denseav
Este algoritmo, llamado DenseAV, aprende el significado del lenguaje asociando señales de audio y vídeo. Después de entrenar a DenseAV en un juego de emparejamiento de audio y vídeo, Hamilton y sus colegas observaron los píxeles en los que el modelo se centraba al oír un sonido. Por ejemplo, cuando alguien decía "perro", el algoritmo buscaba inmediatamente un perro en la secuencia de vídeo. Esta selección de píxeles ayuda a descubrir lo que el algoritmo considera que significa una palabra.
Curiosamente, cuando DenseAV oía un ladrido, también buscaba un perro en la secuencia de vídeo. Esto despertó el interés de los investigadores, quienes exploraron si el algoritmo distinguía entre la palabra "perro" y el ladrido dándole a DenseAV un "cerebro doble". Descubrieron que un lado de DenseAV se centraba naturalmente en el lenguaje, como la palabra "perro", mientras que el otro se centraba en el sonido, como el ladrido. Esto indica que DenseAV no solo aprendió el significado de las palabras y la ubicación de los sonidos, sino también a distinguir los tipos de conexiones entre estas modalidades, sin intervención humana ni entrada de texto.
Características principales de DenseAV:
1. DenseAV es una arquitectura de codificador doble basada en tierra que aprende características de alta resolución, significado semántico y alineación audiovisual al ver vídeos.
2. Puede descubrir el "significado" de las palabras y la "ubicación" de los sonidos sin supervisión de localización explícita.
3. DenseAV puede distinguir automáticamente la asociación entre el significado de las palabras y la ubicación de los sonidos sin supervisión.
4. Utiliza el aprendizaje contrastivo de audio y vídeo para conectar el sonido con el mundo visual, logrando un aprendizaje no supervisado.
5. El modelo utiliza la similitud contrastiva basada en el producto interno entre los tokens de representación local de audio y vídeo, mejorando significativamente su capacidad de información de localización.
6. DenseAV puede organizar naturalmente sus características en características de sonido y características de lenguaje sin saber qué es un sonido y qué es un lenguaje.
7. DenseAV supera al modelo de vanguardia anterior, ImageBind, en la recuperación de modalidades cruzadas utilizando menos de la mitad de los parámetros.
Un campo de aplicación de este método es el aprendizaje a partir de la gran cantidad de vídeos que se publican diariamente en Internet. Los investigadores afirman que esperan que este método pueda utilizarse para comprender nuevos lenguajes sin forma de comunicación escrita, como la comunicación de delfines o ballenas. Finalmente, esperan que este método pueda utilizarse para descubrir patrones de asociación entre otras señales, como el sonido de los terremotos emitidos por la Tierra y las condiciones geológicas.
Uno de los mayores retos del equipo es aprender el lenguaje sin ninguna entrada de texto. Su objetivo es evitar el uso de modelos lingüísticos preentrenados y redescubrir el significado del lenguaje desde cero, un método inspirado en cómo los niños aprenden el lenguaje a través de la observación y la escucha de su entorno.
Enlace al artículo:https://arxiv.org/abs/2406.05629