Com o rápido desenvolvimento da tecnologia AIGC, as ferramentas de edição de imagem estão se tornando cada vez mais poderosas, tornando a manipulação de imagens mais fácil e mais difícil de detectar. Embora os métodos existentes de detecção e localização de manipulação de imagens (IFDL) geralmente sejam eficazes, eles costumam enfrentar dois grandes desafios: primeiro, sua natureza de "caixa preta", com princípios de detecção obscuros; segundo, sua capacidade de generalização limitada, dificultando o enfrentamento de vários métodos de manipulação (como Photoshop, DeepFake e edição AIGC).
Para resolver esses problemas, a equipe de pesquisa da Universidade de Pequim propôs uma tarefa IFDL explicável e projetou o FakeShield, uma estrutura multimodal que pode avaliar a autenticidade de uma imagem, gerar uma máscara de região manipulada e fornecer evidências com base em pistas de manipulação em nível de pixel e de imagem.
Os métodos IFDL tradicionais só podem fornecer a probabilidade de autenticidade da imagem e a região manipulada, mas não podem explicar os princípios de detecção. Devido à precisão limitada dos métodos IFDL existentes, ainda é necessário um julgamento humano posterior. No entanto, devido à falta de informações fornecidas pelos métodos IFDL, a avaliação humana é difícil, e os usuários ainda precisam analisar novamente as imagens suspeitas.
Além disso, em cenários reais, os tipos de manipulação são diversos, incluindo Photoshop (copiar, mover, juntar e remover), edição AIGC e DeepFake. Os métodos IFDL existentes geralmente só podem lidar com um tipo de tecnologia, faltando capacidade de generalização abrangente. Isso obriga os usuários a identificar previamente os diferentes tipos de manipulação e aplicar os métodos de detecção correspondentes, reduzindo significativamente a praticidade desses modelos.
Para resolver esses dois problemas dos métodos IFDL existentes, a estrutura FakeShield utiliza a poderosa capacidade dos modelos de linguagem grandes (LLM), especialmente os modelos de linguagem grandes multimodais (M-LLM), que podem alinhar recursos visuais e de texto, dando aos LLM uma capacidade de compreensão visual mais forte. Como os LLM são pré-treinados em um corpus de conhecimento mundial massivo e diversificado, eles têm um enorme potencial em muitas áreas de aplicação, como tradução automática, preenchimento de código e compreensão visual.
O núcleo da estrutura FakeShield é o conjunto de dados de descrição de manipulação multimodal (MMTD-Set). Este conjunto de dados aprimora os conjuntos de dados IFDL existentes usando o GPT-4, contendo tríades de imagens manipuladas, máscaras de região modificada e descrições detalhadas da região editada. Usando o MMTD-Set, a equipe de pesquisa ajustou finamente o M-LLM e o modelo de segmentação visual para fornecer resultados de análise completos, incluindo a detecção de manipulação e a geração de máscaras de região manipulada precisas.
O FakeShield também inclui o módulo de detecção de falsificação explicável guiado por rótulo de domínio (DTE-FDM) e o módulo de localização de falsificação multimodal (MFLM), usados para resolver a explicação da detecção de vários tipos de manipulação e para realizar a localização de falsificação guiada por descrições de texto detalhadas, respectivamente.
Numerosos experimentos mostram que o FakeShield pode detectar e localizar efetivamente várias tecnologias de manipulação, fornecendo uma solução explicável e superior em comparação com os métodos IFDL anteriores.
Este resultado de pesquisa é a primeira tentativa de aplicar M-LLM a IFDL explicável, marcando um grande avanço na área. O FakeShield não apenas é bom na detecção de manipulação, mas também fornece explicações completas e localização precisa, mostrando uma forte capacidade de generalização para vários tipos de manipulação. Essas características o tornam uma ferramenta prática multifuncional adequada para várias aplicações reais.
No futuro, este trabalho desempenhará um papel crucial em várias áreas, como ajudar a melhorar as leis e regulamentos relacionados à manipulação de conteúdo digital, fornecer orientação para o desenvolvimento de inteligência artificial generativa e promover um ambiente online mais claro e confiável. Além disso, o FakeShield pode auxiliar na coleta de evidências em litígios e ajudar a corrigir informações incorretas no discurso público, contribuindo finalmente para melhorar a integridade e confiabilidade da mídia digital.
Página do projeto: https://zhipeixu.github.io/projects/FakeShield/
Endereço do GitHub: https://github.com/zhipeixu/FakeShield
Endereço do artigo: https://arxiv.org/pdf/2410.02761