1950年、アラン・チューリングという聡明な人物が、機械が知性を持っているかどうかを判断する巧妙な方法、有名なチューリングテストを考案しました。簡単に言うと、機械が文字によるやり取りで人間と区別がつかなければ、テストに合格し、知性があるとみなされるということです。
しかし、技術の発展に伴い、私たちは新たな疑問を抱くようになりました。AIと直接やり取りするのではなく、AIと他の人間のやり取りの記録を読んだ場合、誰が人間で誰が機械なのか正確に判断できるでしょうか?
最近、カリフォルニア大学サンディエゴ校の研究者グループがこの問題について深く研究しました。彼らは、この問題を探るために、「逆転チューリングテスト」と「シフトチューリングテスト」と呼ばれる改良版のチューリングテストを考案しました。
画像出典:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyから提供されています。
逆転チューリングテストでは、AIは被験者ではなく、判定者になります。研究者たちは、GPT-3.5とGPT-4という2つの大規模言語モデルに、人間とAI間の実際の会話記録を読ませ、会話参加者が人間かAIかを判断させました。
結果は驚くべきものでした。これらのAI判定者の判断精度は、直接やり取りに参加した人間の判定者よりも低く、多くの場合、AIを人間と誤って判断しました。特に、最も優れた性能を示したGPT-4モデルでは、AI判定者が人間と判断する頻度が、実際の人間の参加者よりも高くなりました。
研究者たちはシフトチューリングテストも行いました。今度は、人間の判定者がAIと人間間の会話記録を読みます。その結果、人間の判定者であっても、この状況での判断精度は、直接やり取りに参加した人間の判定者よりも低いことがわかりました。
これらの発見は、人間もAIも、直接やり取りしない限り、相手が人間か機械かを正確に判断するのが難しいことを示しています。これは、私たちの日常生活におけるオンラインでのやり取りにとって重要な意味を持ちます。なぜなら、私たちはしばしば、他の人々の会話を読んで彼らを理解しているからです。
これはまた、インターネット上の偽情報や人間になりすましたAIを検出するためにAIに頼る場合、より正確なツールが必要になる可能性があることを意味します。なぜなら、現在のAIモデルはこのタスクにおいて人間よりも優れているわけではないからです。
この研究は、AIに対する私たちの理解を深めるだけでなく、AI開発における重要な課題、つまりAI生成コンテンツと人間生成コンテンツを検出して区別するためのより優れたツールを設計する方法を明らかにしました。
AI技術の進歩に伴い、この問題はますます重要になります。私たちは、AIがもたらす利便性を享受しながら、データの安全とネットワーク環境の真実性を保護する必要があります。