Anthropic社は最近、「体質分類器」と呼ばれる新しい安全対策を開発したと発表しました。これは、言語モデルが悪意のある操作から守ることを目的としています。この技術は、「汎用脱獄」——あらゆる安全対策を体系的に回避しようとする入力方法——に特化しており、AIモデルが有害なコンテンツを生成するのを防ぎます。
この技術の有効性を検証するため、Anthropic社は大規模なテストを実施しました。2ヶ月間にわたり、183人の参加者に防御システムの突破を試みてもらいました。参加者には、特定の質問を入力し、AIモデルClaude3.5に10個の禁止されている質問に答えてもらうよう求められました。最大1万5千ドルの賞金と約3千時間のテスト時間が提供されましたが、Anthropic社の安全対策を完全に回避できた参加者は一人もいませんでした。
挑戦からの進歩
Anthropic社の初期バージョンの「体質分類器」には、2つの主要な問題がありました。1つは、無害なリクエストを危険なリクエストと誤判定しすぎること、もう1つは大量の計算リソースが必要なことでした。改良の結果、新バージョンの分類器では誤判定率が大幅に低下し、計算効率も向上しました。しかし、自動テストによると、改良後のシステムは95%以上の脱獄試行を阻止することに成功しましたが、動作にはさらに23.7%の計算能力が必要でした。対照的に、保護されていないClaudeモデルでは、86%の脱獄試行が成功していました。
合成データに基づく訓練
「体質分類器」の中核は、事前に定義されたルール(「憲法」と呼ばれる)を使用して、許可されるコンテンツと禁止されるコンテンツを区別することです。このシステムは、多様な言語とスタイルの合成訓練例を生成することで、分類器が疑わしい入力を識別できるように訓練されています。この方法は、システムの精度を高めるだけでなく、多様な攻撃への対応能力も強化します。
著しい進歩を遂げましたが、Anthropic社の研究者たちは、このシステムが完璧ではないことを認めています。すべての種類の汎用脱獄攻撃に対処できるわけではなく、将来、新しい攻撃方法が登場する可能性があります。そのため、Anthropic社は、「体質分類器」を他の安全対策と組み合わせて使用することを推奨しています。
公開テストと将来展望
システムの強度をさらにテストするために、Anthropic社は2025年2月3日から10日にかけて公開デモ版をリリースし、セキュリティ専門家にクラックを試みてもらう予定です。テスト結果は、その後のアップデートで発表されます。この取り組みは、Anthropic社の技術の透明性へのコミットメントを示すだけでなく、AIセキュリティ分野の研究に貴重なデータを提供します。
Anthropic社の「体質分類器」は、AIモデルの安全保護における重要な進歩を示しています。AI技術の急速な発展に伴い、モデルの悪用を効果的に防止する方法が業界の焦点となっています。Anthropic社のイノベーションは、この課題に対する新しい解決策を提供するとともに、将来のAIセキュリティ研究の方向性を示しています。