FakeShield
Detecção e localização de imagens explicáveis baseada em modelo de linguagem grande multimodal
Produto ComumImagemDetecção de ImagensAprendizado Multimodal
FakeShield é uma estrutura multimodal que visa resolver dois desafios principais no campo da detecção e localização de imagens (IFDL): a natureza de caixa preta dos princípios de detecção e a capacidade de generalização limitada entre diferentes métodos de adulteração. O FakeShield utiliza o GPT-4 para aprimorar os conjuntos de dados IFDL existentes, criando o conjunto de dados de descrição de adulteração multimodal (MMTD-Set), usado para treinar a capacidade de análise de adulteração do FakeShield. A estrutura inclui um módulo de detecção explicável guiado por rótulos de domínio (DTE-FDM) e um módulo de localização (MFLM), capazes de processar vários tipos de explicações de detecção de adulteração e realizar localização guiada por descrições textuais detalhadas. O FakeShield supera outros métodos em precisão de detecção e pontuação F1, fornecendo uma solução explicável e superior.