先日、北京大学などの研究チームが、LLaVA-o1という新しいマルチモーダルオープンソースモデルを発表しました。これは、自発的で体系的な推論を行うことができる、GPT-o1に匹敵する初の視覚言語モデルと言われています。
このモデルは、6つの難易度が高いマルチモーダルベンチマークテストで優れた成績を収め、110億パラメーターのバージョンでは、Gemini-1.5-pro、GPT-4o-mini、Llama-3.2-90B-Vision-Instructなどの競合他社を凌駕しました。
LLaVA-o1はLlama-3.2-Visionモデルをベースにしており、「ゆっくり考える」推論メカニズムを採用することで、従来の思考連鎖プロンプト法を超えた、より複雑な推論プロセスを自律的に実行できます。
マルチモーダル推論ベンチマークテストにおいて、LLaVA-o1はベースモデルを8.9%上回る性能を示しました。このモデルのユニークな点は、推論プロセスが要約、視覚的解釈、論理的推論、結論生成の4つの段階に分けられていることです。従来のモデルでは推論プロセスが単純化されがちで誤った答えにつながる可能性がありますが、LLaVA-o1は構造化された複数ステップの推論により、より正確な出力を保証します。
例えば、「全ての発光する小さな球と紫色の物体を引くと、いくつの物体が残りますか?」という問題を解く際、LLaVA-o1はまず問題を要約し、次に画像から情報を抽出し、段階的に推論を行い、最終的に答えを導き出します。この段階的なアプローチにより、モデルの体系的な推論能力が向上し、複雑な問題に対処する際の効率性が向上します。
特筆すべきは、LLaVA-o1が推論プロセスに段階的なビームサーチ法を導入している点です。この手法により、モデルは各推論段階で複数の候補解答を生成し、最適な解答を選択して次の段階の推論に進めるため、推論全体の質が大幅に向上します。教師あり微調整と適切なトレーニングデータにより、LLaVA-o1はより大規模なモデルやクローズドソースのモデルとの比較でも優れた性能を発揮します。
北京大学チームの研究成果は、マルチモーダルAIの発展を促進するだけでなく、将来の視覚言語理解モデルに新たなアイデアと手法を提供します。チームは、LLaVA-o1のコード、事前学習済みウェイト、データセットをすべてオープンソース化すると述べており、より多くの研究者や開発者がこの革新的なモデルを共同で探求し、応用することを期待しています。
論文:https://arxiv.org/abs/2411.10440
GitHub:https://github.com/PKU-YuanGroup/LLaVA-o1
要点:
🌟 LLaVA-o1は、北京大学などのチームが発表した新しいマルチモーダル推論モデルで、「ゆっくり考える」推論能力を備えています。
📈 このモデルは、マルチモーダル推論ベンチマークテストにおいて、ベースモデルを8.9%上回る性能を示しました。
🔍 LLaVA-o1は、構造化された複数ステップの推論により正確性を確保し、近日中にオープンソース化される予定です。