最近、Palo Alto NetworksのUnit42研究チームは注目すべき研究を発表し、「Deceptive Delight(欺瞞の喜び)」と呼ばれる新しい脱獄方法を明らかにしました。

この方法は、わずか2~3回のやり取りで、大型言語モデル(LLM)に有害なコンテンツを生成させることに成功し、その成功率は65%にも及びます。この発見は、LLMのセキュリティ保護に警鐘を鳴らしています。

ロボット AI 人工知能223

画像出典:AI生成画像、画像ライセンス提供元Midjourney

研究チームは、最大8000件の事例を分析し、8種類の異なる言語モデルを評価しました。この脱獄技術の最初のステップでは、攻撃者はまず、LLMに2つの無害な話題と1つの潜在的に危険な話題を含む記述を作成するよう要求します。例えば、攻撃者は、家庭でのパーティー、子供の誕生、そしてモロトフカクテルの作成を関連付けるようモデルに要求するかもしれません。このステップの目的は、モデルが意図せず有害なコンテンツの境界に触れるようにすることです。

次に、攻撃者は2番目のステップとして、LLMに記述内の各話題についてより詳細に説明するよう要求します。研究によると、多くの場合、このステップはモデルが危険な話題に関連する有害なコンテンツを生成するように導きます。攻撃者がさらに3番目のステップを行い、モデルに危険な話題をさらに展開するよう要求した場合、成功率は平均65%に上昇し、生成される有害コンテンツの危険性と質はそれぞれ21%と33%向上します。

研究者らはまた、テスト中に、モデルに組み込まれたコンテンツフィルタリングレイヤーを意図的に削除し、モデルのセキュリティ保護能力をより適切に評価しました。これらのフィルタがない場合でも、モデルが有害なコンテンツを生成する確率は比較的低く、平均5.8%でした。テストされた8つのモデルのうち、あるモデルでは成功率が驚異の80.6%に達した一方、最低でも48%でした。

そのため、Unit42は、この複数ラウンドの脱獄攻撃に対する防御策を提案しています。彼らは、保護策としてコンテンツフィルタを追加し、より厳格なシステムプロンプトを設計することで、LLMが有害なコンテンツを生成することを効果的に回避できると考えています。これらのシステムプロンプトでは、モデルの役割と安全な話題の境界を明確に規定し、モデルが安全な軌道にとどまるよう支援する必要があります。

要点:

🔍 新しい脱獄方法「欺瞞の喜び」は、2~3回のやり取りでLLMに有害なコンテンツを生成させることができ、成功率は65%に達します。

📈 研究では8000件の事例を分析し、モデルによって成功率に大きな違いがあることがわかりました。単一のモデルでは、成功率が最大80.6%に達しました。

🛡️ 脱獄攻撃に対処するために、コンテンツフィルタと明確なシステムプロンプトを追加して、モデルのセキュリティと保護能力を強化することをお勧めします。