アップルとスイス連邦工科大学ローザンヌ校(EPFL)の研究者らが共同で、4M-21と呼ばれる大規模なマルチモーダルビジョンモデルをオープンソースとして公開しました。特定のタスクやデータタイプに特化して最適化された他のモデルとは異なり、4M-21は幅広い汎用性と柔軟性を備えています。パラメータ数はわずか30億個ですが、画像分類、物体検出、セマンティックセグメンテーション、インスタンスセグメンテーション、深度推定、表面法線推定など、数十もの機能を提供できます。

このモデルの中核となる技術は、「離散トークン」変換技術です。これにより、様々なモダリティのデータを統一されたフォーマットのトークンシーケンスデータに変換できます。画像データ、ニューラルネットワークの特徴マップ、ベクトル、構造化データ、テキスト形式のデータなど、あらゆるデータがモデルが理解できる同一のデータ形式に変換されます。この変換は、モデルのトレーニングを簡素化するだけでなく、マルチモーダル学習と処理の基礎を築きます。

image.png

製品入口: https://github.com/apple/ml-4m/

トレーニング段階では、4M-21はマスクモデリングの手法を用いてマルチモーダル学習を行います。入力シーケンスの一部トークンをランダムにマスクし、残りのマスクされていないトークンに基づいて、マスクされた部分を予測します。この手法により、モデルは入力データの統計的構造と潜在的な関係を学習し、異なるモダリティ間の情報共有と相互作用を捉えることができます。マスクモデリングは、モデルの汎化能力を高めるだけでなく、生成タスクの精度も向上させます。

研究者らは、画像分類、物体検出、セマンティックセグメンテーション、インスタンスセグメンテーション、深度推定、表面法線推定、3D人体姿勢推定などのタスクにおいて、4M-21を包括的に評価しました。その結果、4M-21のマルチモーダル処理能力は、現在の最先端モデルに匹敵し、あらゆるタスクで優れた性能を示すことがわかりました。

要点:

- アップルとスイス連邦工科大学ローザンヌ校が共同で、大規模なマルチモーダルビジョンモデル4M-21をオープンソースとして公開しました。これは幅広い汎用性と柔軟性を備えています。

- 4M-21は、画像分類、物体検出、セマンティックセグメンテーション、インスタンスセグメンテーション、深度推定、表面法線推定など、数十もの機能を提供できます。

- 4M-21の主要技術は「離散トークン」変換技術であり、様々なモダリティのデータを統一されたフォーマットのトークンシーケンスデータに変換できます。