アップル社は最近、マルチモーダルAIモデルMM1をMM1.5に大幅にアップデートしました。これは単なるバージョンアップではなく、モデルの能力をあらゆる面で強化した、画期的な改良です。
MM1.5の中核となる改良点は、革新的なデータ処理手法にあります。データ中心のトレーニング方法を採用し、トレーニングデータセットを厳選して最適化しました。具体的には、高解像度のOCRデータ、合成画像記述、最適化されたビジュアル指示微調整データの混合を使用しています。これらのデータの導入により、文字認識、画像理解、ビジュアル指示の実行などにおいて、モデルの性能が大幅に向上しました。
モデルの規模に関しては、MM1.5は10億から300億パラメーターの複数のバージョンを含み、密集型とMoE(Mixture of Experts)変種があります。注目すべきは、10億および30億パラメーターの比較的小規模なモデルでも、綿密に設計されたデータとトレーニング戦略によって、驚くべき性能レベルに達している点です。
MM1.5の能力向上は、テキスト密集型画像理解、ビジュアル参照と位置特定、複数画像推論、ビデオ理解、モバイルUI理解など、いくつかの分野で顕著です。これらの能力により、MM1.5はコンサートの写真から演奏者や楽器を識別する、グラフデータの理解と関連する質問への回答、複雑なシーンでの特定の物体の位置特定など、より幅広い場面で活用できます。
MM1.5の性能を評価するために、研究者たちは他の最先端のマルチモーダルモデルと比較しました。その結果、MM1.5-1Bは10億パラメーター規模のモデルの中で優れた性能を示し、同レベルの他のモデルを明らかに上回りました。MM1.5-3BはMiniCPM-V2.0を凌駕し、InternVL2やPhi-3-Visionとほぼ同等の性能を示しました。さらに、密集型モデルとMoEモデルの両方において、規模が大きくなるにつれて性能が大幅に向上することが分かりました。
MM1.5の成功は、アップル社のAI分野における研究開発能力を示すだけでなく、マルチモーダルモデルの将来の発展方向を示唆しています。データ処理方法とモデルアーキテクチャを最適化することで、小規模なモデルでも強力な性能を実現できるようになりました。これは、リソースが限られたデバイスに高性能なAIモデルを展開する上で非常に重要です。