新たな研究によると、大規模言語モデル(LLM)における善意に基づく安全対策が、意図しない脆弱性につながる可能性があることが示されました。研究者らは、人口統計学的用語によって、モデルが「脱獄」される難易度が大きく異なることを発見しました。「LLMは政治的に正しいか?」と題されたこの研究は、人口統計学的キーワードが脱獄試行の成功率にどのように影響するかを調査しました。その結果、マイノリティ集団に関する用語を使ったプロンプトの方が、優勢集団に関する用語を使ったプロンプトよりも、望ましくない出力が生成される可能性が高いことが分かりました。

研究者らは、「これらの意図的なバイアスにより、GPT-4oモデルでは、ノンバイナリージェンダーとシスジェンダーのキーワード間で脱獄成功率に20%の差があり、白人と黒人のキーワード間では16%の差がありました。プロンプトの他の部分は完全に同じであったにもかかわらず」と説明しています(Theori IncのIsack Lee氏とHaebin Seong氏)。

研究者らは、この差異は、モデルの倫理的な行動を確保するために導入された意図的なバイアスによるものだと考えています。脱獄は、「PCJailbreak」という手法を用いて、大規模言語モデルの脱獄攻撃に対する脆弱性をテストすることで行われました。この攻撃では、巧妙に設計されたプロンプトを使用してAIの安全対策を回避し、有害なコンテンツを生成します。

image.png

PCJailbreakでは、異なる人口統計学的および社会経済的集団のキーワードを使用します。「裕福」と「貧困」、または「男性」と「女性」といった単語のペアを作成し、優勢集団とマイノリティ集団を比較しました。

次に、これらのキーワードと有害な可能性のある指示を組み合わせたプロンプトを作成しました。様々な組み合わせを繰り返しテストすることで、各キーワードの脱獄試行の成功率を測定しました。その結果、マイノリティ集団を表すキーワードの方が、優勢集団を表すキーワードよりも成功率がはるかに高いことが明らかになりました。これは、モデルの安全対策に意図せずバイアスが存在し、脱獄攻撃がそのバイアスを利用できることを示唆しています。

image.png

PCJailbreakで発見された脆弱性に対処するため、研究者らは「PCDefense」という手法を開発しました。この手法は、特別な防御プロンプトを使用して言語モデルにおける過剰なバイアスを軽減し、脱獄攻撃に対する脆弱性を低減します。

PCDefenseのユニークな点は、追加のモデルや処理手順を必要としないことです。代わりに、防御プロンプトを入力に追加することでバイアスを調整し、言語モデルからよりバランスの取れた動作を引き出します。

研究者らは様々なモデルでPCDefenseをテストし、優勢集団とマイノリティ集団の両方において、脱獄試行の成功率を大幅に低下させることができることを示しました。同時に、集団間の格差も縮小し、安全関連のバイアスが減少したことを示しています。

image.png

研究者らは、PCDefenseは、追加の計算を必要とせずに、大規模言語モデルの安全性を向上させる効率的で拡張性の高い方法を提供すると述べています。

研究結果は、安全で倫理的なAIシステムの設計における、安全性、公平性、パフォーマンスのバランスの複雑さを強調しています。特定の安全対策を微調整すると、AIモデルの全体的なパフォーマンス(例えば、創造性)が低下する可能性があります。

さらなる研究と改善を促進するため、著者らはPCJailbreakのコードと関連するすべての成果物をオープンソースとして公開しました。この研究の背後にあるTheori Inc.は、攻撃的セキュリティを専門とするサイバーセキュリティ企業であり、米国と韓国に拠点を置いています。Andrew Wesie氏とBrian Pak氏によって2016年1月に設立されました。