先日、中国の複数の研究機関からなる研究チームが、Infinity-MMと呼ばれる超大規模マルチモーダルデータセットを発表し、このデータセットに基づいて、高性能なAIモデルAquila-VL-2Bを開発しました。この画期的な成果は、マルチモーダルAIの発展に新たな活力を与えるものです。
Infinity-MMデータセットは驚異的な規模を誇り、1000万件の画像説明、2440万件の汎用ビジュアル指示データ、600万件の高品質厳選指示データ、そしてGPT-4などのAIモデルによって生成された300万件のデータという4つの主要なデータカテゴリで構成されています。研究チームは、オープンソースのAIモデルRAM++を用いて画像分析と情報抽出を行い、独自の6つのカテゴリ分類システムによって生成データの質と多様性を確保しました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
モデルアーキテクチャにおいて、Aquila-VL-2BはLLaVA-OneVisionをベースに構築されており、Qwen-2.5言語モデルとSigLIP画像処理技術を統合しています。研究チームは、基礎的な画像テキスト関連学習から始まり、汎用ビジュアルタスク、特定の指示処理へと段階的に移行し、最後に合成データを取り込みながら、画像解像度の上限を段階的に向上させる、4段階の漸進的トレーニング方法を採用しました。
パラメータ数はわずか20億個ですが、Aquila-VL-2Bは様々なベンチマークテストで優れた性能を示しました。マルチモーダル理解能力テストMMStarでは54.9%という最高得点を達成し、数学能力テストMathVistaでは59%の高得点を記録し、同種のシステムを大幅に上回りました。汎用画像理解テストでは、HallusionBenchとMMBenchでそれぞれ43%と75.2%という優れた成績を収めました。
研究によると、合成データの導入はモデル性能の向上に大きく貢献しています。実験によると、これらの追加データを使用しない場合、モデル性能は平均2.4%低下しました。第3段階から、Aquila-VL-2Bの性能はInternVL2-2BやQwen2VL-2Bなどの参照モデルを大幅に上回り、特に第4段階では、データ量の増加に伴い、性能向上はより顕著になりました。
特筆すべきは、研究チームがデータセットとモデルを研究コミュニティに公開したことでしょう。これは、マルチモーダルAI技術の発展を大きく促進するでしょう。このモデルは、Nvidia A100 GPUでのトレーニングだけでなく、中国の自社開発チップにも対応しており、強力なハードウェア適応性を示しています。