マサチューセッツ工科大学(MIT)電気工学・コンピュータサイエンス学科の博士課程学生、Mark Hamilton氏は、MITコンピュータ科学・人工知能研究所(CSAIL)のメンバーであり、動物のコミュニケーション方法を機械に理解させたいと考えています。その目的を達成するため、彼はまず「ゼロから」人間の言語を学習できるシステムの構築に着手しました。

image.png

製品入口:https://top.aibase.com/tool/denseav

このアルゴリズムはDenseAVと呼ばれ、音声と映像信号を関連付けることで言語の意味を学習します。Hamilton氏と彼の同僚は、DenseAVに音声と映像の一致ゲームを訓練させ、モデルが音を聞いた時に注目するピクセルを観察しました。例えば、「犬」という言葉が聞こえた時、アルゴリズムはすぐに映像の中で犬を探します。このピクセルの選択は、アルゴリズムが特定の単語の意味をどのように捉えているかを理解するのに役立ちます。

image.png

興味深いことに、DenseAVは犬の鳴き声を聞いた時にも映像の中の犬を探します。「犬」という言葉と犬の鳴き声の違いをアルゴリズムが理解しているかどうかを調べるため、研究者たちはDenseAVに「二重の脳」を与えました。その結果、DenseAVの一方は「犬」のような言葉といった言語に、もう一方は犬の鳴き声のような音に自然と注目することが分かりました。これは、DenseAVが単語の意味と音の位置を学習するだけでなく、人間の介入やテキスト入力なしで、これらのクロスモーダルな接続の種類を区別することを学習したことを示しています。

 DenseAVの主要機能:

1. DenseAVは、二重エンコーダー接地アーキテクチャであり、高解像度、意味、視覚音声アライメントの機能をビデオを見ることで学習します。

2. 明確な位置の監視なしで、単語の「意味」と音の「位置」を発見できます。

3. DenseAVは、教師なしで単語の意味と音の位置の関連性を自動的に区別できます。

4. 音声と視覚世界の関連付けに音声ビデオコントラスト学習を使用し、教師なし学習を実現します。

5. ローカル音声と視覚表現トークン間の内積に基づくコントラスト類似度を使用することで、位置情報の能力を大幅に向上させています。

6. 音声とは何か、言語とは何かを知らない状態でも、その特徴を音声特徴と言語特徴として自然に整理します。

7. パラメータを半分以下で使用しながら、クロスモーダル検索において、以前の最先端モデルであるImageBindを上回っています。

この手法の応用分野の一つは、毎日インターネットに投稿される大量のビデオからの学習です。研究者たちは、この手法が、イルカやクジラなど、書かれたコミュニケーション形式を持たない新しい言語の理解に役立つことを期待しています。最終的には、地震の音と地質状況など、他の信号間の模式的な関連性の発見にも役立つことを期待しています。

チームが直面する大きな課題の一つは、テキスト入力なしで言語を学習することです。事前に学習された言語モデルの使用を避け、ゼロから言語の意味を再発見することを目指しており、これは子供が観察と環境からの聴取を通じて言語を理解することにヒントを得ています。

論文アドレス:https://arxiv.org/abs/2406.05629