最近、コーネル大学などの研究機関が、GPT-4o、Claude、Geminiなど複数の生成AIモデルについて、幻覚(ハルシネーション)のベンチマークテストを実施しました。その結果、最先端のモデルでも、幻覚のないテキストを生成できるのは約35%にとどまり、AIの信頼性向上にはまだ課題が残されていることが明らかになりました。
研究者らは、法律、医療、歴史などのテーマに関する権威のある情報源を用いて事実確認を行い、Wikipediaに掲載されていない内容を含む問題集を作成しました。その結果、OpenAIのモデルが全体的に最も良い成績でしたが、旧バージョンのGPT-3.5と比較しての進歩は限定的でした。興味深いことに、モデルのサイズは幻覚の頻度に影響せず、Claude3Haikuのような小型モデルも大型モデルと同等の性能を示しました。
画像出典:MidjourneyによるAI生成画像
研究の共著者である趙文婷氏は、オンライン検索可能なモデルでさえ「Wikipediaにない」問題を解決するのが難しい点を指摘し、Wikipediaがモデルに大きな影響を与えていることを示唆しました。彼女は、幻覚の問題は「長期間続く」と予想しており、その原因の一つとして、トレーニングデータ自体に誤情報が含まれている可能性を挙げています。
暫定的な解決策としては、モデルの回答拒否率を高めることが考えられます。Claude3Haikuは、質問の72%しか回答せず、最も「正直な」モデルとなりました。しかし、この戦略はユーザーエクスペリエンスに影響を与える可能性があります。
趙氏は、幻覚を完全に排除することは現実的ではないものの、人的な事実確認や引用の提供などを通じて問題を軽減できると述べています。そして、AIが生成した情報の検証プロセスに人間の専門家が関与することを保証するための関連政策の策定を訴えています。