AIGC技術の急速な発展に伴い、画像編集ツールはますます強力になり、画像改ざんが容易になり、検知も困難になっています。既存の画像改ざん検出と特定方法(IFDL)は通常有効ですが、「ブラックボックス」的な性質で検出原理が不明瞭であること、汎化能力が限られており、Photoshop、DeepFake、AIGC編集など、様々な改ざん方法に対応できないことの2つの課題に直面しています。

image.png

これらの問題を解決するため、北京大学の研究チームは、説明可能なIFDLタスクを提案し、画像の真偽を評価し、改ざん領域のマスクを生成し、ピクセルレベルと画像レベルの改ざん手がかりに基づいて判断根拠を提供する、多様なモダリティを備えたフレームワークFakeShieldを設計しました。

従来のIFDL方法は、画像の真偽の確率と改ざん領域しか提供できず、検出原理を説明することはできません。既存のIFDL方法の精度には限界があり、依然として人的な判断が必要となります。しかし、IFDL方法が提供する情報が不十分なため、人的評価を支援することが難しく、ユーザーは依然として疑わしい画像を自ら再分析する必要があります。

image.png

さらに、現実のシナリオでは、Photoshop(コピー移動、つなぎ合わせ、削除)、AIGC編集、DeepFakeなど、改ざんの種類は多岐に渡ります。既存のIFDL方法は通常、そのうちの1つの技術しか処理できず、包括的な汎化能力が不足しています。そのため、ユーザーは事前に異なる改ざんの種類を識別し、それに応じて特定の検出方法を適用する必要があり、これらのモデルの実用性が大幅に低下します。

既存のIFDL方法のこれらの2つの問題を解決するために、FakeShieldフレームワークは、大規模言語モデル(LLM)、特に視覚とテキストの特徴を連携させることができる多様なモダリティを備えた大規模言語モデル(M-LLM)の強力な能力を活用しています。これにより、LLMはより強力な視覚的理解能力を獲得します。LLMは膨大で多様な世界の知識コーパスで事前学習されているため、機械翻訳、コード補完、視覚的理解など、多くのアプリケーション分野で大きな可能性を秘めています。

image.png

FakeShieldフレームワークの中核は、多様なモダリティを備えた改ざん記述データセット(MMTD-Set)です。このデータセットは、GPT-4oを使用して既存のIFDLデータセットを拡張したもので、改ざんされた画像、修正領域のマスク、編集領域の詳細な説明の3つ組で構成されています。MMTD-Setを活用することで、研究チームはM-LLMと視覚セグメンテーションモデルを微調整し、改ざんの検出と正確な改ざん領域マスクの生成を含む、完全な分析結果を提供できるようにしました。

FakeShieldには、様々な種類の改ざん検出の説明と、詳細なテキスト記述によって導かれる偽造特定の実現をそれぞれ解決するための、ドメインラベルガイド付きの説明可能な偽造検出モジュール(DTE-FDM)と多様なモダリティを備えた偽造特定モジュール(MFLM)も含まれています。

多くの実験により、FakeShieldは様々な改ざん技術を効果的に検出および特定できることが示され、従来のIFDL方法と比較して、より優れた説明可能なソリューションを提供します。

この研究成果は、M-LLMを説明可能なIFDLに適用した最初の試みであり、この分野における大きな進歩を示しています。FakeShieldは改ざん検出に優れているだけでなく、包括的な説明と正確な特定を提供し、様々な改ざんの種類に対する強力な汎化能力を示しています。これらの特性により、様々な現実のアプリケーションに適用できる多機能で実用的なツールとなっています。

将来、この研究は、デジタルコンテンツの操作に関連する法律・規制の改善、生成型AIの開発への指針提供、より明確で信頼できるオンライン環境の促進など、多くの分野で重要な役割を果たすと考えられます。さらに、FakeShieldは法的訴訟における証拠収集を支援し、公共の言説における誤った情報を修正するのに役立ち、最終的にはデジタルメディアの完全性と信頼性の向上に貢献します。

プロジェクトホームページ: https://zhipeixu.github.io/projects/FakeShield/

GitHubアドレス: https://github.com/zhipeixu/FakeShield

論文アドレス: https://arxiv.org/pdf/2410.02761