Con el rápido desarrollo de la tecnología AIGC, las herramientas de edición de imágenes se han vuelto cada vez más potentes, haciendo que la manipulación de imágenes sea más fácil y más difícil de detectar. Si bien los métodos existentes de detección y localización de manipulación de imágenes (IFDL) suelen ser eficaces, a menudo se enfrentan a dos grandes desafíos: en primer lugar, su naturaleza de "caja negra", ya que su principio de detección no es claro; y en segundo lugar, su capacidad de generalización es limitada, lo que dificulta su adaptación a diversos métodos de manipulación (como Photoshop, DeepFake y edición AIGC).
Para abordar estos problemas, el equipo de investigación de la Universidad de Pekín propuso una tarea IFDL explicable y diseñó FakeShield, un marco multimodal capaz de evaluar la autenticidad de una imagen, generar una máscara de la zona manipulada y proporcionar una base para el juicio basada en pistas de manipulación a nivel de píxel y de imagen.
Los métodos IFDL tradicionales solo pueden proporcionar la probabilidad de autenticidad de una imagen y la zona manipulada, pero no pueden explicar el principio de detección. Debido a la precisión limitada de los métodos IFDL existentes, sigue siendo necesaria una evaluación humana posterior. Sin embargo, debido a la información insuficiente proporcionada por los métodos IFDL, es difícil apoyar la evaluación humana, y los usuarios aún necesitan reanalizar las imágenes sospechosas por sí mismos.
Además, en escenarios reales, los tipos de manipulación son diversos, incluyendo Photoshop (copiar, mover, unir y eliminar), edición AIGC y DeepFake. Los métodos IFDL existentes suelen poder procesar solo un tipo de tecnología, careciendo de una capacidad de generalización completa. Esto obliga a los usuarios a identificar previamente los diferentes tipos de manipulación y aplicar los métodos de detección correspondientes, lo que reduce considerablemente la utilidad de estos modelos.
Para solucionar estos dos problemas de los métodos IFDL existentes, el marco FakeShield aprovecha la potencia de los modelos lingüísticos de gran tamaño (LLM), en particular los modelos lingüísticos de gran tamaño multimodales (M-LLM), que pueden alinear las características visuales y de texto, otorgando así a los LLM una mayor capacidad de comprensión visual. Debido a que los LLM se han preentrenado en un corpus de conocimiento mundial masivo y diverso, tienen un enorme potencial en numerosas áreas de aplicación, como la traducción automática, la finalización de código y la comprensión visual.
El núcleo del marco FakeShield es el conjunto de datos de descripción de manipulación multimodal (MMTD-Set). Este conjunto de datos ha mejorado los conjuntos de datos IFDL existentes utilizando GPT-4, e incluye tríadas de imágenes manipuladas, máscaras de zonas modificadas y descripciones detalladas de las zonas editadas. Al utilizar MMTD-Set, el equipo de investigación ajustó finamente los M-LLM y los modelos de segmentación visual para que pudieran proporcionar resultados de análisis completos, incluyendo la detección de manipulaciones y la generación de máscaras de zonas manipuladas precisas.
FakeShield también incluye un módulo de detección de falsificación explicable guiado por etiquetas de dominio (DTE-FDM) y un módulo de localización de falsificación multimodal (MFLM), que se utilizan para resolver la explicación de la detección de varios tipos de manipulaciones y para lograr la localización de falsificaciones guiada por descripciones de texto detalladas.
Numerosos experimentos muestran que FakeShield puede detectar y localizar eficazmente diversas técnicas de manipulación, ofreciendo una solución explicable y superior en comparación con los métodos IFDL anteriores.
Este resultado de investigación es el primer intento de aplicar M-LLM a IFDL explicable, lo que marca un gran avance en este campo. FakeShield no solo destaca en la detección de manipulaciones, sino que también proporciona explicaciones completas y una localización precisa, mostrando una potente capacidad de generalización para diversos tipos de manipulación. Estas características lo convierten en una herramienta práctica y multifuncional adecuada para diversas aplicaciones reales.
En el futuro, este trabajo desempeñará un papel crucial en varios campos, como la mejora de las leyes y reglamentos relacionados con la manipulación de contenido digital, la orientación del desarrollo de la inteligencia artificial generativa y la promoción de un entorno online más claro y fiable. Además, FakeShield puede ayudar en la recopilación de pruebas en litigios legales y ayudar a corregir la información errónea en el discurso público, contribuyendo en última instancia a mejorar la integridad y la fiabilidad de los medios digitales.
Página principal del proyecto: https://zhipeixu.github.io/projects/FakeShield/
Dirección de GitHub: https://github.com/zhipeixu/FakeShield
Dirección del artículo: https://arxiv.org/pdf/2410.02761