OpenAIチームは、最先端のAI研究を複製するAIエージェントの能力を評価することを目的とした、PaperBenchというベンチマークを発表しました。このテストでは、AIエージェントが2024年の国際機械学習会議(ICML)で発表された重要な論文20本をゼロから複製することが求められます。このプロセスには、論文の貢献の理解、コードベースの開発、実験の成功した実行が含まれます。
評価の客観性を確保するために、研究者たちは詳細な採点基準を設計しました。これらの基準は、各複製タスクを複数の階層のサブタスクに分解し、明確な採点基準を設定しています。PaperBenchには、個別に採点可能なタスクが合計8316個あり、すべての採点尺度は論文の著者と協力して開発され、その正確性と信頼性が保証されています。
大規模な評価を実現するために、研究チームは、大規模言語モデル(LLM)に基づく自動採点システムも開発しました。このシステムは、事前に設定された採点基準に基づいて、AIエージェントの複製試行を採点することができます。同時に、チームはこの採点システムの性能を評価するための独立したベンチマークも構築しました。
複数の最先端AIモデルを評価した結果、最も優れた性能を示したのはClaude3.5Sonnet(新バージョン)で、平均複製スコアは21.0%でした。これらの結果をさらに検証するために、研究者たちは、トップレベルの機械学習博士課程の学生数名にPaperBenchの一部タスクを試行してもらいました。その結果、現在のAIモデルは人間の複製能力をまだ凌駕していないことが示されました。
今後の研究を促進するために、OpenAIチームは開発したコードをオープンソース化することを決定しました。これにより、より多くの研究者がこのプラットフォームを利用して、AIエージェントのエンジニアリング能力とAI研究の複製における可能性を深く探求することができます。
プロジェクトコード: https://github.com/openai/preparedness/tree/main/project/paperbench
要点:
🌟 PaperBenchは、AIエージェントによるAI研究の複製能力を評価するための新しいベンチマークであり、ICML2024の論文20本が対象です。
🔍 このテストでは、個別に採点可能なタスクが8316個設計されており、採点基準は論文の著者と共同で開発されました。
🤖 Claude3.5Sonnetはテストで最高の性能を示したモデルですが、トップレベルの人間研究者を超えるものではありませんでした。