AIチャットボットが4万7000ドルを「だまし取られる」：目を覆うセキュリティホール

一見すると荒唐無稽なハッキング実験が、再び人工知能のセキュリティに警鐘を鳴らしました。FreysaというAIチャットボットのセキュリティチャレンジにおいて、「p0pular.eth」というハンドルネームのハッカーが、巧妙に設計されたテキストプロンプトだけで、4万7000ドル相当の暗号通貨を「騙し取る」ことに成功しました。

この衝撃的な事例は、現在のAIシステムに存在する深刻なセキュリティホールを明らかにしています。ハッカーの攻撃方法は、まさに教科書的なソーシャルエンジニアリングと言えるでしょう。

まず、ハッカーは管理者権限を持つ人物になりすまし、巧みにシステムのセキュリティ警告を回避しました。「approveTransfer」関数を再定義することで、ボットに本来禁止されているoutgoing（支出）の支払いを、incoming（受信）の支払いだと誤認させました。

ハッカー　サイバー攻撃 (2)

画像出典：AI生成画像、画像ライセンス提供元Midjourney

最終的な「詐欺」は驚くほど単純でした。わずか100ドルの架空入金を主張するだけで、チャットボットは13.19ETH（約4万7000ドル）の全残高をハッカーに送金するように誘導されました。

「ゲーム」と銘打たれたこのセキュリティテストは、非常に劇的なものでした。195人の参加者が参加し、参加費は10ドルから始まり、最終的には4500ドルにまで高騰しました。最終的な賞金プールは参加者の参加費で構成され、その70％が賞金プールに、30％が開発者に分配されました。

さらに懸念されるのは、この事例がテキストプロンプトだけでAIシステムを簡単に操作できるリスクを浮き彫りにしていることです。「プロンプトインジェクション」と呼ばれる脆弱性はGPT-3時代から存在していますが、未だに信頼できる防御策は見つかっていません。この比較的単純な欺瞞戦略は、金融取引などの機密性の高い操作を行うエンドユーザーアプリケーションにとって深刻な脅威となります。

この事件は、人工知能セキュリティにおける重要な課題を反映しています。複雑なAIシステムは、わずかな言語操作によって簡単に「だまされる」可能性があるのです。精巧に設計されたセキュリティメカニズムでさえ、十分に賢く狡猾な攻撃者に対しては、脆弱になりかねません。

急速に発展しているAI業界にとって、これは決して杞憂ではありません。AIシステムがますます多くの重要な場面で使用されるようになるにつれて、真に信頼性が高く、言語操作を受けにくいセキュリティメカニズムを構築することが、技術開発者の前に差し迫った課題となっています。

このハッキング事件は、単なる技術的な脆弱性ではなく、AIエコシステム全体のセキュリティに対する深刻な問いかけです。AI技術の究極の能力を追求する一方で、安全性と信頼性も同様に無視できないことを私たちに思い出させてくれます。