GPT-4モデルのような大規模言語モデル(LLM)を搭載したチャットプラットフォームChatGPTは、驚くべき能力を示しており、書かれた指示を理解し、様々な言語で適切な応答を生成することができます。これにより、多くの人が疑問を抱いています。これらのモデルが生成するテキストや回答は、人間が書いたものと見分けがつかないほどリアルなのか、ということです。
各証人タイプの通過率(左)と尋問者の確信度(右)。
最近、カリフォルニア大学サンディエゴ校の研究者たちは、機械が人間の知性を示す程度を評価することを目的とした、チューリングテストと呼ばれる研究を行いました。その研究結果によると、人々はGPT-4モデルと人間の代理人との2人対話において、両者を区別することが困難であることが分かりました。
arXivサーバーで先行公開されたこの研究論文では、GPT-4が約50%のやり取りで人間と間違えられる可能性があることが示されています。初期の実験では、結果に影響を与えるいくつかの変数を十分に制御していなかったため、より詳細な結果を得るために第二の実験が行われました。
この4回の会話のうち1回は人間との会話、残りはAIとの会話です。
彼らの研究では、人々はGPT-4が人間かどうかを判断するのが困難でした。GPT-3.5やELIZAモデルと比較すると、後者が機械であると判断できることが多いのですが、GPT-4が人間か機械かを判断する能力は、ランダムな推測よりも優れているわけではありませんでした。
研究チームは「人間か、それとも人間ではないか」という2人用オンラインゲームを設計し、参加者に別の人間またはAIモデルと対話させました。各ゲームで、人間である尋問者が「証人」と会話し、相手が人間かどうかを判断しようとします。
実際の人間は、尋問者に自分が人間であると納得させることに約3分の2の成功率を収めていますが、研究結果によると、現実世界では、人間とAIシステムのどちらと会話しているかを確実に判断することはできない可能性があることが示唆されています。