アップルとスイス連邦工科大学ローザンヌ校(EPFL)の研究者らは共同で、数十種類もの多様なモダリティで訓練でき、大規模なマルチモーダルデータセットとテキストコーパスを協調して訓練できる、任意のモダリティから任意のモダリティへの単一モデルを開発しました。このモデルは4M-21と名付けられ、21種類の異なるモダリティで訓練されており、既存のモデルよりも少なくとも3倍以上のタスクをこなせ、性能を落とすこともありません。

image.png

この研究では、4M事前学習手法を採用しました。モデルとデータセットの規模を拡大し、訓練モデルに関わるモダリティの種類と数を増やし、複数のデータセットで共同訓練を行うことで、モデルの性能と適応性を向上させることができます。研究者らは、グローバル画像埋め込み、人体姿勢、意味インスタンスなど、異なる特徴を持つモダリティを離散化するために、異なるトークン化手法を使用しました。アーキテクチャの選択においては、Transformerベースの4Mエンコーダ-デコーダアーキテクチャを採用し、新しいモダリティに対応するために追加のモダリティ埋め込みを追加しました。

image.png

このモデルは、DIODE表面法線と深さ推定、COCOセマンティックとインスタンスセグメンテーション、3DPW3D人体姿勢推定など、一般的なビジョンのタスクをすぐに実行できるだけでなく、任意の訓練モダリティを生成し、細粒度とマルチモーダル生成を実行するためのいくつかの方法をサポートし、他のモダリティをクエリとして使用してRGB画像または他のモダリティを検索することもできます。さらに、研究者らはNYUv2、Hypersimセマンティックセグメンテーション、ARKitScenesでマルチモーダル転送実験を行いました。

重要な機能特性は以下のとおりです。

任意のモダリティから任意のモダリティへ:既存の最先端の任意のモダリティから任意のモダリティへのモデルの7種類のモダリティから21種類の異なるモダリティに増加し、クロスモーダル検索、制御可能な生成、強力なすぐに使える性能を実現しました。

多様性のサポート:人体姿勢、SAMインスタンス、メタデータなど、より多くの構造化データのサポートを追加しました。

トークン化:グローバル画像埋め込み、人体姿勢、意味インスタンスなど、異なるモダリティの離散トークン化を研究するために、モダリティ固有の方法を使用しました。

拡張:モデルサイズを30億パラメータに、データセットを5億サンプルに拡張しました。

協調訓練:視覚と言語の両方で協調して訓練しました。

  • 論文アドレス:https://arxiv.org/pdf/2406.09406

要点:

- アップルとスイス連邦工科大学ローザンヌ校(EPFL)の研究者らは共同で、21種類の異なるモダリティで訓練できる、任意のモダリティから任意のモダリティへの単一モデルを開発しました。

- このモデルは、一般的なビジョンのタスクをすぐに実行できるだけでなく、任意の訓練モダリティを生成し、細粒度とマルチモーダル生成を実行するためのいくつかの方法をサポートしています。

- 研究者らはNYUv2、Hypersimセマンティックセグメンテーション、ARKitScenesでマルチモーダル転送実験を行いました。