カリフォルニア大学サンディエゴ校認知科学科が主導した最近の研究により、人工知能分野に画期的な進歩をもたらしました。OpenAIの最新モデルGPT-4.5が、標準的なチューリングテストにおいて「人格を演じる」方法で初めて人間を超えるパフォーマンスを実現し、現在最も人間らしい会話能力を持つAIシステムとなりました。この成果は、AIの言語能力に対する認識を一新するだけでなく、社会知能分野におけるAIの応用可能性に新たな想像力を与えました。

今回の実験では、代表的な4つのAIシステムを比較テストしました。1960年代の古典的なチャットボットELIZA、Meta AIが開発したLLaMa-3.1-405B、そしてOpenAIのGPT-4oとGPT-4.5です。研究者たちは2つの独立したテストグループを設計し、各グループはProlificなどのオンラインプラットフォームから集められた250人の参加者で構成され、合計500人の参加者となりました。これらの参加者は年齢、性別、教育背景が異なり、サンプルの多様性を確保していました。テストは古典的な3者間チューリングテスト形式を採用しました。各審査員は5分間、テキストインターフェースを通じて2つの会話相手とやり取りし、一方は実際の人間、もう一方はテスト対象のAIシステムです。その後、審査員はどちらが人間かを判断する必要があります。

image.png

実験結果は注目に値します。GPT-4.5は2つのテストグループにおいて、73%の確率で「人間と間違われる」という結果となり、人間の成功率(通常60%~70%)を上回り、標準的なチューリングテストで真の意味で「合格」した最初のAIモデルとなりました。これに対して、GPT-4oの成功率はやや低く、LLaMa-3.1-405Bは一部の設定では人間レベルに近づいたり、達成したりしましたが、旧式のシステムELIZAのパフォーマンスははるかに劣っていました。研究者たちは特に、GPT-4.5がテストにおいて驚くべき言語の自然さと感情の豊かさを見せ、審査員の口調に合わせて柔軟に回答を調整し、参加者から「フレンドリー」または「リアル」と評されることが多かったと指摘しています。

image.png

さらに注目すべきは、GPT-4.5が言語の流暢さだけでなく、「人間のような社会知能」も示したことでしょう。研究チームは、このモデルが短時間の交流の中で会話の感情的な手がかりを迅速に捉え、人間の社会的な期待に沿った方法で反応し、状況によっては人間のパフォーマンスを上回ることができると分析しています。例えば、審査員が疑問を示したり、感情の波動を示したりすると、GPT-4.5は適切なタイミングで慰めやユーモラスな反応を与え、この繊細なインタラクション能力により、多くの参加者は自分が生身の人間と向き合っていると誤解しました。

image.png

一方、LLaMa-3.1-405Bは技術的に印象的ですが、感情表現と文脈への適応性はやや劣っていました。しかし、特定の設定下でのパフォーマンスは人間レベルに近づいており、オープンソースモデルがAI競争における可能性を示しています。GPT-4oはGPT-4.5の前身ですが、能力は高いものの、人格化された表現と動的な調整において後者との間に明確な差がありました。

image.png

業界の専門家は、GPT-4.5の成功は、トレーニングプロセスにおいてより複雑な人格描写メカニズムと会話戦略が統合されたことによるものだと指摘しています。従来の言語モデルの「即興生成」とは異なり、GPT-4.5は会話前に何らかの「予測フレームワーク」を形成し、リアルタイムのフィードバックに基づいて回答を動的に最適化できるようです。この能力により、短時間の交流において非常に「賢く」見え、AI固有の機械的な痕跡を隠すことさえできます。しかし、これは新たな議論を引き起こしました。チューリングテストは依然としてAIの知性を測る究極の基準と言えるのでしょうか?一部の学者は、GPT-4.5の成功は、真の理解や自律的な思考ではなく、人間の社会的行動の模倣に大きく依存していると主張しています。

いずれにしても、GPT-4.5の突破は、AI技術の発展に新たな活力を注ぎ込みました。教育指導から心のケア、カスタマーサービスまで、このモデルの人間らしい会話能力は、より生活に密着したアプリケーションシナリオを生み出す可能性があります。同時に、テストにおける高い合格率は、AIがますます「人間らしく」なるにつれて、現実と仮想をどのように区別し、その使用をどのように規制するかが、将来の社会が直面しなければならない課題であることを私たちに思い出させます。

この研究の発表は、AI技術が急速に進化している時期に当たります。GPT-4.5の登場は、OpenAIにとって技術的な勝利であるだけでなく、人間と機械の関係に対する深い問い掛けでもあります。ある参加者が言ったように「まるで友達とチャットしているように感じた――それがコードの魔法だと気付くまで」。この人間とAIの会話の駆け引きにおいて、真の試練は始まったばかりなのかもしれません。

論文アドレス:https://arxiv.org/pdf/2503.23674