最近の研究によると、OpenAIの最新のo1-previewのような高度なAI言語モデルでも、複雑な計画タスクでは不十分であることが示されています。

この研究は、復旦大学、カーネギーメロン大学、バイトダンス、オハイオ州立大学の科学者らによって共同で行われ、BlocksWorldとTravelPlannerという2つの計画基準におけるAIモデルのパフォーマンスをテストしました。

人工知能、AI、人間の脳、未来

古典的な計画タスクであるBlocksWorldでは、ほとんどのモデルの正確性は50%未満でしたが、o1-mini(約60%)とo1-preview(約100%)は比較的良好な結果を示しました。

しかし、より複雑なTravelPlannerに移行すると、すべてのモデルのパフォーマンスは期待外れでした。GPT-4oの最終成功率はわずか7.8%、o1-previewでも15.6%でした。GPT-4o-Mini、Llama3.1、Qwen2などの他のモデルは0~2.2%のスコアでした。o1-previewはGPT-4oよりも改善されていますが、それでも人間の計画能力には遠く及びません。

研究者らは、2つの主要な問題を指摘しました。まず、モデルはルールと条件を統合する際に不十分であり、計画が事前に設定されたガイドラインに違反することがよくあります。次に、計画時間が長くなるにつれて、元の問題への関心が薄れていきます。研究チームは、計画プロセスへの異なる入力要素の影響を測定するために、「排列特徴重要性」という手法を使用しました。

さらに、研究チームは、AIの計画能力を向上させるための2つの一般的な戦略もテストしました。1つ目は、過去の計画試行から知識を得るエピソードメモリ更新です。これは制約の理解を改善しましたが、個々のルールへのより詳細な考慮には繋がりませんでした。2つ目は、微調整によってタスクの計画への影響を強化するパラメータメモリ更新です。しかし、計画が長くなるにつれて、中心的な問題である影響力の低下は依然として存在しました。これらの2つの方法は改善をもたらしましたが、根本的な問題を完全に解決することはできませんでした。

なお、研究関連のコードとデータは近日中にGitHubで公開される予定です。

コードへのアクセス:https://github.com/hsaest/Agent-Planning-Analysis

要点:

🌍 研究によると、OpenAIのo1-previewなどのAIモデルは、複雑な旅行計画においてパフォーマンスが低く、GPT-4oの成功率はわずか7.8%でした。

📉 ほとんどのモデルはBlocksWorldではそこそこのパフォーマンスを示しましたが、TravelPlannerではどれも理想的な結果を得ることができませんでした。

🧠 研究では、モデルが主にルールを十分に統合できないこと、そして時間とともに焦点がぼやけることが問題であることが分かりました。