最近、「13.8と13.11、どちらが大きい?」という簡単な算数の問題が、一部の人間だけでなく、多くの巨大言語モデル(LLM)をも悩ませています。この問題は、AIが常識的な問題を処理する能力について、幅広い議論を引き起こしました。
ある有名なバラエティ番組で、この問題がネット上で大きな話題になりました。多くの人が13.11%の方が13.8%より大きいと考えていましたが、実際は13.8%の方が大きいです。
AI2の研究者である林禹臣氏は、GPT-4oなどの巨大言語モデルでさえ、この簡単な比較問題で間違いを犯すことを発見しました。GPT-4oは13.11の方が13.8より大きいと誤って判断し、間違った説明を与えました。
林禹臣氏の発見は、AIコミュニティで活発な議論を巻き起こしました。Gemini、Claude3.5Sonnetなど、他の多くの巨大言語モデルも、この簡単な比較問題で同じ間違いを犯しました。
この問題の出現は、一見簡単だが実際には正確な数値比較を伴うタスクを処理する際に、AIが遭遇する可能性のある困難を示しています。
自然言語理解、画像認識、複雑な意思決定など、多くの分野で著しい進歩を遂げていますが、基本的な算術演算や論理的推論においては、依然として間違いを犯す可能性があり、現在の技術の限界を示しています。
なぜAIはこんな間違いをするのか?
訓練データの偏り:AIモデルの訓練データには、この特定の数値比較問題を正しく処理するための十分な例が含まれていない可能性があります。訓練中にモデルが接触したデータが、主に大きな数字には小数点以下の桁が多いことを示している場合、より多くの小数点以下の桁をより大きな値と誤って解釈する可能性があります。
浮動小数点数の精度問題:コンピュータサイエンスでは、浮動小数点数の表現と計算には精度に関する問題が伴います。非常に小さな違いでも、特に精度が明確に指定されていない場合は、比較時に誤った結果につながる可能性があります。
コンテキストの理解不足:このケースではコンテキストの明確さが主要な問題ではないかもしれませんが、AIモデルは通常、コンテキストに基づいて情報を正しく解釈する必要があります。問題の表現が不明確であるか、AIが訓練データでよく見かけるパターンと一致しない場合、誤解につながる可能性があります。
プロンプト設計の影響:AIにどのように質問するかは、正しい答えを得るために非常に重要です。質問の仕方が異なると、AIの理解度と回答の正確性に影響を与える可能性があります。
どのように改善できるか?
訓練データの改善:より多様で正確な訓練データを提供することで、AIモデルが数値比較やその他の基本的な数学的概念をよりよく理解するのに役立ちます。
プロンプト設計の最適化:問題の表現を注意深く設計することで、AIが正しい答えを出す可能性を高めることができます。たとえば、より明確な数値表現と質問方法を使用することで、あいまいさを減らすことができます。
数値処理の精度向上:計算誤差を減らすために、浮動小数点演算をより正確に処理できるアルゴリズムと技術を開発・採用します。
論理的および常識的推論能力の強化:論理的および常識的推論に特化した訓練を通じて、これらの分野におけるAIの能力を高め、常識に関連するタスクをより適切に理解および処理できるようにします。