FakeShield

多モーダル大規模言語モデルに基づく、解釈可能な画像検出と位置特定

一般製品画像画像検出多モーダル学習
FakeShieldは、画像検出と位置特定(IFDL)分野における2つの主要な課題、すなわち検出原理のブラックボックス性と、異なる改ざん手法間の汎化能力の限定性を解決することを目的とした多モーダルフレームワークです。FakeShieldは、GPT-4を用いて既存のIFDLデータセットを強化し、FakeShieldの改ざん分析能力をトレーニングするための多モーダル改ざん記述データセット(MMTD-Set)を作成します。このフレームワークには、ドメインラベルガイドによる解釈可能な検出モジュール(DTE-FDM)と位置特定モジュール(MFLM)が含まれており、様々な種類の改ざん検出の説明を処理し、詳細なテキスト記述による位置特定を実現します。FakeShieldは、検出精度とF1スコアにおいて他の手法を上回り、解釈可能で優れたソリューションを提供します。
ウェブサイトを開く

FakeShield 代替品