Mark Hamilton, Doktorand im Fach Elektrotechnik und Informatik am Massachusetts Institute of Technology (MIT), ist Mitglied des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) und möchte das Verständnis der Kommunikation von Tieren durch Maschinen ermöglichen. Zu diesem Zweck begann er zunächst mit der Entwicklung eines Systems, das menschliche Sprache „von Grund auf“ lernen kann.

image.png

Produktzugang:https://top.aibase.com/tool/denseav

Dieser Algorithmus, genannt DenseAV, lernt die Bedeutung von Sprache, indem er Audio- und Videosignale verknüpft. Nachdem Hamilton und seine Kollegen DenseAV ein Audio-Video-Matching-Spiel trainiert hatten, beobachteten sie, auf welche Pixel das Modell sich konzentrierte, wenn es Geräusche hörte. Wenn beispielsweise jemand „Hund“ sagte, suchte der Algorithmus sofort nach einem Hund im Videostream. Diese Pixelauswahl hilft dabei, zu erkennen, was der Algorithmus unter der Bedeutung eines Wortes versteht.

image.png

Interessanterweise suchte DenseAV auch nach einem Hund im Videostream, wenn es Hundegebell hörte. Dies weckte das Interesse der Forscher, die untersuchten, ob der Algorithmus den Unterschied zwischen dem Wort „Hund“ und dem Hundegebell kennt, indem sie DenseAV ein „zweigeteiltes Gehirn“ gaben. Sie entdeckten, dass sich eine Seite von DenseAV natürlich auf Sprache, wie das Wort „Hund“, konzentrierte, während sich die andere Seite auf Geräusche, wie Hundegebell, konzentrierte. Dies deutet darauf hin, dass DenseAV nicht nur die Bedeutung von Wörtern und die Position von Geräuschen lernte, sondern auch die Unterscheidung dieser crossmodalen Verbindungen lernte, ohne menschliches Eingreifen oder Texteingeben.

 Kernfunktionen von DenseAV:

1. DenseAV ist eine duale Encoder-Grounding-Architektur, die hochauflösende, semantische und audiovisuelle ausgerichtete Merkmale durch das Betrachten von Videos lernt.

2. Es kann die „Bedeutung“ von Wörtern und die „Position“ von Geräuschen ohne explizite Lokalisierungsüberwachung entdecken.

3. DenseAV kann die Verbindung zwischen Wortbedeutung und Geräuschposition ohne Aufsicht automatisch unterscheiden.

4. Es nutzt den audiovisuellen kontrastiven Lernansatz, um Geräusche mit der visuellen Welt zu verknüpfen und unüberwachtes Lernen zu ermöglichen.

5. Das Modell verwendet die kontrastive Ähnlichkeit, die auf dem inneren Produkt zwischen lokalen Audio- und visuellen Repräsentations-Token basiert, um seine Lokalisierungsfähigkeit deutlich zu verbessern.

6. DenseAV kann seine Merkmale auf natürliche Weise in Geräuschmerkmale und Sprachmerkmale organisieren, ohne zu wissen, was ein Geräusch und was Sprache ist.

7. DenseAV übertrifft das bisherige Top-Modell ImageBind im Bereich der crossmodalen Retrieval, obwohl es weniger als die Hälfte der Parameter verwendet.

Ein Anwendungsgebiet dieser Methode ist das Lernen aus den unzähligen Videos, die täglich ins Internet gestellt werden. Die Forscher geben an, dass sie hoffen, diese Methode nutzen zu können, um neue Sprachen zu verstehen, die keine schriftliche Kommunikationsform haben, wie z. B. die Kommunikation von Delfinen oder Walen. Letztendlich hoffen sie, diese Methode nutzen zu können, um Musterverbindungen zwischen anderen Signalen zu entdecken, z. B. zwischen Erdbebensignalen und geologischen Bedingungen.

Eine große Herausforderung für das Team ist das Erlernen von Sprache ohne Texteingeben. Ihr Ziel ist es, die Verwendung vorab trainierter Sprachmodelle zu vermeiden und die Bedeutung von Sprache von Grund auf neu zu entdecken. Diese Methode ist inspiriert von der Art und Weise, wie Kinder Sprache durch Beobachtung und Zuhören ihrer Umgebung verstehen.

Paper-Adresse: https://arxiv.org/abs/2406.05629