人工知能の発展において、チューリングテストは常に重要なマイルストーンでした。最近、カリフォルニア大学サンディエゴ校認知科学科の研究者らが、GPT-4を用いたチューリングテストの再現実験を行い、注目すべき結果を得ました。

彼らは500人の参加者を募り、4つのエージェントと会話を行いました。その中には、人間1人と、1960年代のELIZAプログラム、GPT-3.5、そしてGPT-4という3つのAIモデルが含まれていました。5分間の会話の後、参加者は相手が人間かAIかを判断しました。

image.png

実験の結果、GPT-4が人間と誤認される確率は54%に達し、ELIZAは22%、GPT-3.5は50%、実際の人間は67%の確率で正しく識別されました。この結果は、インタラクティブな二人組のチューリングテストにおいて、人工知能システムが人間を欺くほどに巧妙になったことを初めて実証する証拠となりました。

1.jpg

研究者らはまた、参加者が判断する際に、雑談やソーシャル・エモーショナルな戦略を用いる傾向が高いことも発見しました。彼らは会話の内容とエージェントの行動に基づき、主に言語スタイルとソーシャル・エモーショナルな要素を判断基準としていました。この発見は、機械知能に関する議論に重要な影響を与え、AIシステムが現実世界で人間を欺く可能性を示唆しています。

この研究は非常に重要な意味を持ちます。それは、現在のAIシステムが現実世界で人間を欺く可能性を示唆するだけでなく、機械知能に関する議論に深い影響を与えているからです。人々はAIとのコミュニケーションにおいて、相手が人間かどうかを区別することがますます困難になる可能性があり、これは人工知能の倫理、プライバシー、セキュリティなどの問題に新たな課題を突きつけています。