MetaのFAIRチームは最近、人間の二重認知システムを模倣した全く新しいTransformerモデル「Dualformer」を発表しました。このモデルは、高速推論と低速推論のモードをシームレスに統合することで、推論能力と計算効率において著しい進歩を遂げています。

人間の思考プロセスは、一般的に2つのシステムによって制御されていると考えられています。システム1は高速で直感的であり、システム2は低速ですが論理的です。

従来のTransformerモデルは、通常システム1またはシステム2のいずれか一方のみを模倣していました。そのため、モデルは高速だが推論能力が低い、あるいは推論能力が高いが低速で計算コストが高い、という問題がありました。

image.png

Dualformerの革新的な点は、その訓練方法にあります。研究者たちは、ランダムな推論軌跡を用いてモデルを訓練しました。訓練中に軌跡の異なる部分をランダムに削除することで、人間の思考プロセスを分析し、近道を作るような方法です。この訓練戦略により、Dualformerは推論時に異なるモードを柔軟に切り替えることができます。

高速モード: Dualformerは最終的な解決策のみを出力し、非常に高速です。

低速モード: Dualformerは完全な推論過程と最終的な解決策を出力し、推論能力が高まります。

自動モード: Dualformerはタスクの複雑さによって適切なモードを自動的に選択します。

image.png

実験結果によると、Dualformerは迷路ナビゲーションや数学の問題解決などのタスクで優れた性能を示しました。低速モードでは、Dualformerは30x30の迷路ナビゲーションタスクを97.6%の成功率で解決し、完全な推論軌跡のみで訓練されたSearchformerモデルを上回りました。同時に、推論ステップは45.5%削減されました。

image.png

image.png

高速モードでは、Dualformerの成功率は80%に達し、最終的な解決策のみで訓練されたSolution-Onlyモデルをはるかに上回りました。自動モードでは、Dualformerは高い成功率を維持しながら、推論ステップを大幅に削減できます。

image.png

image.png

Dualformerの成功は、人間の認知理論を人工知能モデル設計に応用することで、モデルの性能を効果的に向上させることができることを示しています。この高速と低速の思考を融合したモデルは、より強力で効率的なAIシステムを構築するための新しい道を切り開きます。

論文アドレス:https://arxiv.org/pdf/2410.09918