人間は推論を行う際に、図を描くことがよくあります。例えば、幾何学の問題を解く際に補助線を引いたり、地図に印を付けたり囲ったり、考えを整理する際にスケッチを描いたりします。しかし、現在のマルチモーダル言語モデル(LM)にはそのような能力がありません。最新の研究では、研究者たちは「Sketchpad」という概念を導入し、マルチモーダルLMに視覚的な描画ボードと描画ツールを提供することで、視覚的推論を可能にしました。

image.png

製品入口:https://top.aibase.com/tool/visual-sketchpad

動作メカニズム:Sketchpadは、GPT-4が中間スケッチを生成してタスクを推論できるようにします。視覚的な入力とクエリ(例えば、三角形の角度が180°であることを証明するなど)が与えられると、Sketchpadによりモデルは幾何学の問題解決に役立つ補助線を引くことができます。コンピュータビジョンの問題では、Sketchpadは視覚専門家を使用してスケッチを作成し、視覚的推論を促進できます。例えば、「接地DINO」を使用して境界ボックスを描画したり、「セグメンテーション・エニシング」を使用してマスクを描画したりします。

従来の、テキストから画像へのモデルを使用してLMが描画できるようにする手法とは異なり、SketchpadはLMが線、枠、マークなどを使用して描画することを可能にします。これは人間のスケッチにより近く、推論に便利です。さらに、Sketchpadは描画プロセスにおいて、オブジェクト検出モデルによる境界ボックスの描画や、セグメンテーションモデルによるマスクの描画など、専門的な視覚モデルを使用することができ、視覚的認識と推論能力をさらに強化します。

実験結果によると、Sketchpadは、数学的タスク(幾何学、関数、グラフ、チェスを含む)と複雑な視覚的推論タスクにおけるマルチモーダル大規模言語モデルのパフォーマンスを大幅に向上させました。描画機能のない強力な基本モデルと比較して、SketchpadによりLMのパフォーマンスは、数学的タスクで平均12.7%、視覚的タスクで8.6%向上しました。Sketchpadを搭載したGPT-4oは、V*Bench(80.3%)、BLINK空間推論(83.9%)、視覚的対応(80.8%)など、すべてのタスクで新たな技術レベルを達成しました。

この研究の成果は、視覚的な描画ボードと描画ツールを導入することで、マルチモーダルLMが複雑な推論タスクを処理する際に、人間の思考方法により近づき、数学と視覚的推論分野におけるパフォーマンスが向上したことを意味します。このブレークスルーは、言語モデルと視覚モデルの発展において重要な役割を果たし、人工知能技術の発展に新たな可能性を切り開くでしょう。