最近、オーストリア複雑系科学研究所(CSH)主導の研究で、大規模言語モデル(LLM)は多くのタスクで優れた性能を示すものの、高度な歴史問題への対応には弱点があることが明らかになりました。OpenAIのGPT-4、MetaのLlama、GoogleのGeminiという3つのトップモデルを対象としたテストの結果は、期待外れなものとなりました。

ロボット競技 回答 数学

画像出典:AI生成画像、画像ライセンス提供元Midjourney

これらのモデルの歴史知識に関する能力を評価するため、研究者らは「Hist-LLM」というベンチマークツールを開発しました。このツールはSeshatグローバル歴史データベースに基づいており、AIによる歴史問題への回答の正確性を検証することを目的としています。NeurIPSという著名な人工知能会議で発表された研究結果によると、最も性能が良かったGPT-4Turboの正解率はわずか46%でした。これは、ランダムな推測とほぼ変わらない結果です。

ユニバーシティ・カレッジ・ロンドンのコンピューターサイエンス准教授であるMaria del Rio-Chanona氏は、「大規模言語モデルは印象的ですが、高度な歴史知識に関する理解の深さは依然として不十分です。単純な事実の処理は得意ですが、より複雑な歴史問題には対応できません。」と述べています。例えば、特定の時代の古代エジプトに鱗甲が存在したかどうかを尋ねられた際、GPT-4Turboは誤って「存在した」と回答しましたが、実際にはその技術が登場するのは1500年後です。さらに、古代エジプトに職業常備軍が存在したかどうかを尋ねられた際も、GPT-4は誤って「存在した」と回答しましたが、実際には存在しませんでした。

研究では、サハラ以南のアフリカなど特定の地域に関する問題への対応が劣っていることも明らかになり、トレーニングデータに偏りがある可能性を示唆しています。研究責任者のPeter Turchin氏は、これらの結果は、LLMが一部の分野では人間の代わりになることができないことを示していると指摘しています。

要点:

- 📉 GPT-4Turboの高度な歴史試験における正解率はわずか46%と低調。

- 📚 研究によると、大規模言語モデルは複雑な歴史知識の理解において依然として不十分。

- 🌍 研究チームは、テストツールの改良を通じて、歴史研究におけるモデルの応用可能性を高めたいと考えています。