最新の研究によると、人工知能はプログラミングやコンテンツ作成などで優れた能力を示していますが、複雑な歴史問題の処理においては依然として不十分であることが明らかになりました。最近NeurIPS会議で発表された研究では、最先端の大規模言語モデル(LLM)でさえ、歴史知識テストで満足のいく結果を得ることが難しいことが示されました。
研究チームはHist-LLMというテストベンチマークを開発し、OpenAIのGPT-4、MetaのLlama、GoogleのGeminiという3つのトップレベルの言語モデルを評価しました。Seshatグローバル歴史データベースに基づいたテストの結果は残念なものでした。最も成績が良かったGPT-4Turboの正解率はわずか46%でした。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
ユニバーシティ・カレッジ・ロンドンの准教授、マリア・デルリオ=チャノナは次のように説明しています。「これらのモデルは基本的な歴史的事実に関してはうまく機能しますが、博士レベルの深い歴史研究となると力不足です。」研究によると、AIはしばしば細部で間違え、例えば古代エジプトのある時期に特定の軍事技術や常備軍を持っていたかどうかを誤って判断することがあります。
研究者たちは、この低いパフォーマンスは、AIモデルが主流の歴史的記述から推論する傾向があり、より微妙な歴史的詳細を正確に把握することが難しいことによるものだと考えています。さらに、サハラ以南のアフリカなどの地域の歴史問題を処理する際のこれらのモデルのパフォーマンスが低いことも発見され、トレーニングデータにバイアスが存在する可能性が示唆されました。
複雑系科学センター(CSH)の研究責任者であるPeter Turchinは、この発見は、特定の専門分野ではAIが人間の専門家を代替できないことを示していると述べています。しかし、研究チームはAIの歴史研究への応用可能性について依然として楽観的であり、より優れたモデルの開発を支援するためにテストベンチマークの改良に取り組んでいます。