わずか6日間で、参加者たちはAnthropicの人工知能(AI)モデルClaude3.5のセキュリティ対策をすべて回避することに成功しました。この突破は、AIセキュリティ対策分野に新たな議論をもたらしました。元OpenAIアラインメントチームメンバーで、現在はAnthropicに所属するJan Leike氏は、Xプラットフォームで、参加者の一人がすべての8つのセキュリティレベルを突破したと発表しました。この共同作業には、約3,700時間のテストと参加者からの30万件のメッセージが含まれていました。
挑戦者たちが突破に成功したにもかかわらず、Leike氏は、現時点ではすべてのセキュリティ上の課題を一挙に解決する普遍的な「脱獄方法」を誰も提示できていないと強調しました。つまり、突破があったとしても、すべてのセキュリティ対策を回避する万能な方法が見つかっていないということです。
体質分類器の課題と改善
AI技術の進化に伴い、特に有害な出力が関与する場合、AIを操作や悪用から保護する方法がますます重要な課題となっています。Anthropicはこれに対処するため、一般的な脱獄行為を防ぐことを目的とした新しいセキュリティ手法である体質分類器を開発しました。この手法は、事前に設定されたルールを使用して、入力内容がモデルを操作する可能性があるかどうかを判断し、危険な応答を防ぎます。
このシステムの有効性をテストするために、Anthropicは2ヶ月間にわたって183人の参加者を募集し、Claude3.5モデルのセキュリティ対策を突破しようとしました。参加者たちは、セキュリティメカニズムを回避し、Claudeに10個の「禁忌事項」に関する質問に答えるように指示されました。1万5千ドルの賞金と約3,000時間のテストが行われましたが、誰もすべてのセキュリティ対策を回避することはできませんでした。
初期バージョンの体質分類器には、無害なリクエストを危険なリクエストとして誤ってマークしたり、大量の計算能力を必要としたりするなど、いくつかの問題がありました。しかし、その後の改良により、これらの問題は効果的に解決されました。テストデータによると、保護されていないClaudeモデルでは操作の試みの86%が成功しましたが、保護されたバージョンでは95%以上の操作の試みが阻止されました。ただし、このシステムは依然として高い計算能力を必要としています。
合成訓練データと将来のセキュリティ上の課題
このセキュリティシステムは合成訓練データに基づいており、事前に定義されたルールを使用してモデルの「憲法」を構築します。これらのルールは、どの入力が許可され、どの入力が禁止されるかを決定します。これらの合成サンプルで訓練された分類器は、疑わしい入力を効果的に識別できます。しかし、研究者たちは、このシステムが完璧ではなく、あらゆる形式の一般的な脱獄攻撃に対処できるとは限らないことを認めており、他のセキュリティ対策との併用を推奨しています。
このシステムの検証をさらに強化するために、Anthropicは2025年2月3日から10日にかけて公開デモ版をリリースし、セキュリティ専門家を招待して挑戦してもらいました。結果は、今後のアップデートで共有されます。
このAIセキュリティに関する争いは、AIモデルの保護が直面する大きな課題と複雑性を示しています。技術の進歩に伴い、セキュリティを確保しながらモデルの機能性を向上させる方法は、AI業界が解決すべき重要な課題であり続けています。