アップル社がHugging Face上で、昨年発表した論文で紹介された4Mモデルのデモを公開し、大きな話題となっています。このモデルは、テキスト、画像、3Dシーンなど、多様なモダリティのコンテンツを処理・生成できる画期的なものです。画像から深度マップや線画といった情報を抽出することも可能です。AIbaseが以前生成した和風の世界観の画像でテストしたところ、その精度の高さは目を見張るものがありました。画像をアップロードすると、すぐに以下の情報が抽出されました。
写真一枚アップロードするだけで、主要な輪郭、色調、サイズといった画像のあらゆる情報を簡単に取得できます。
アップル社にとって、これは研究開発における従来の秘密主義からの大胆な転換と言えるでしょう。Hugging FaceというオープンソースAIのプラットフォームで自社のAI技術力を披露するだけでなく、開発者にも協力を呼びかけ、4Mを基盤としたエコシステム構築を目指しています。4Mのマルチモーダルアーキテクチャは、Siriがより複雑なクエリをスマートに処理したり、Final Cut Proが音声指示で自動的に動画編集を行ったりするなど、アップルエコシステム内に、より連携性が高く多機能なAIアプリケーションが登場する可能性を示唆しています。
しかし、4Mの登場は、データ活用とAI倫理の課題も提起しています。アップル社はユーザープライバシーの保護を掲げていますが、データ集約型のAIモデルである4Mに対して、その立場が試されることになるかもしれません。技術革新を推進しつつ、ユーザーの信頼を損なわないよう、慎重なバランス感覚が求められます。
4Mの技術原理を簡単に見てみましょう。最大の特長は「大規模マルチモーダルマスキングモデリング」というトレーニング方法です。この方法は、画像、意味、幾何学的情報など、様々な視覚モダリティを同時に処理し、統一されたトークンに変換することで、モダリティ間のシームレスな連携を実現します。
トレーニングでは、入力とターゲットとしてランダムに一部のトークンを選択することで、トレーニング目標の拡張性を確保しています。つまり、画像もテキストも4Mにとっては単なる数字の羅列であり、この設計によりモデルの汎用性が大幅に向上しています。
4Mのトレーニングデータと方法も注目に値します。世界最大級のオープンソースデータセットの一つであるCC12Mを使用していますが、このデータセットはデータが豊富である一方で、アノテーション情報が不完全です。そこで、研究者たちはCLIP、MaskRCNNなどの技術を用いて弱教師あり擬似ラベル法を採用し、データセットを包括的に予測し、その結果をトークンに変換することで、4Mのマルチモーダル互換性の基盤を築きました。
幅広い実験とテストを経て、4Mは特定のタスクのための事前トレーニングや微調整を大量に行うことなく、直接マルチモーダルタスクを実行できることが証明されています。まるでAIにマルチモーダル対応の万能ツールを与えたようなもので、様々な課題に柔軟に対応できます。
デモアドレス:https://huggingface.co/spaces/EPFL-VILAB/4M