AIエージェントシステムのベンチマークテスト結果

清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。

研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。

研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。