Mit der rasanten Entwicklung der AIGC-Technologie werden Bildbearbeitungswerkzeuge immer leistungsfähiger, wodurch die Bildmanipulation einfacher und schwerer zu erkennen wird. Obwohl bestehende Methoden zur Erkennung und Lokalisierung von Bildmanipulationen (IFDL) oft effektiv sind, stehen sie vor zwei großen Herausforderungen: Erstens sind sie oft „Blackbox“-Methoden, deren Funktionsweise nicht transparent ist; zweitens ist ihre Generalisierungsfähigkeit begrenzt, und sie können mit verschiedenen Manipulationsmethoden (wie Photoshop, DeepFake, AIGC-Bearbeitung) nur schwer umgehen.

image.png

Um diese Probleme zu lösen, hat ein Forschungsteam der Peking-Universität eine erklärbare IFDL-Aufgabe vorgeschlagen und FakeShield entwickelt, ein multimodales Framework, das die Echtheit von Bildern bewertet, eine Maske der manipulierten Bereiche generiert und auf Basis von Pixel- und Bildebenen-Hinweisen eine Beurteilung liefert.

Traditionelle IFDL-Methoden liefern nur die Wahrscheinlichkeit der Echtheit eines Bildes und die manipulierten Bereiche, aber keine Erklärung des Detektionsverfahrens. Aufgrund der begrenzten Genauigkeit bestehender IFDL-Methoden ist eine manuelle Nachprüfung weiterhin notwendig. Da die von IFDL-Methoden bereitgestellten Informationen jedoch unzureichend sind, ist eine manuelle Bewertung schwierig, und Benutzer müssen verdächtige Bilder selbst erneut analysieren.

image.png

Darüber hinaus gibt es in realen Szenarien viele verschiedene Arten von Manipulationen, darunter Photoshop (Kopieren, Verschieben, Zusammenfügen und Entfernen), AIGC-Bearbeitung und DeepFake. Bestehende IFDL-Methoden können in der Regel nur eine dieser Techniken verarbeiten und haben keine umfassende Generalisierungsfähigkeit. Dies zwingt Benutzer dazu, die verschiedenen Manipulationsarten im Voraus zu identifizieren und entsprechend spezifische Erkennungsmethoden anzuwenden, was die Praktikabilität dieser Modelle erheblich reduziert.

Um diese beiden Probleme bestehender IFDL-Methoden zu lösen, nutzt das FakeShield-Framework die Leistungsfähigkeit großer Sprachmodelle (LLM), insbesondere multimodaler großer Sprachmodelle (M-LLM), die visuelle und textuelle Merkmale aufeinander abstimmen und LLMs so ein besseres visuelles Verständnis ermöglichen. Da LLMs auf riesigen und vielfältigen Wissenskorpora vorab trainiert wurden, verfügen sie über ein enormes Potenzial in vielen Anwendungsbereichen wie maschineller Übersetzung, Code-Vervollständigung und visuellem Verständnis.

image.png

Der Kern des FakeShield-Frameworks ist der multimodale Datensatz zur Beschreibung von Manipulationen (MMTD-Set). Dieser Datensatz wurde mit GPT-4 auf bestehenden IFDL-Datensätzen erweitert und enthält Tripletts aus manipulierten Bildern, Masken der modifizierten Bereiche und detaillierten Beschreibungen der bearbeiteten Bereiche. Mit Hilfe des MMTD-Sets wurde das M-LLM und das visuelle Segmentierungsmodell feinabgestimmt, um vollständige Analyseergebnisse zu liefern, einschließlich der Erkennung von Manipulationen und der Generierung genauer Masken der manipulierten Bereiche.

FakeShield enthält außerdem einen durch Domänenlabels gesteuerten, erklärbaren Modul zur Fälschungsdetektion (DTE-FDM) und ein multimodales Modul zur Fälschungslokalisierung (MFLM), die jeweils dazu dienen, die Erklärung der Erkennung verschiedener Manipulationstypen und die durch detaillierte Textbeschreibungen gesteuerte Lokalisierung von Fälschungen zu ermöglichen.

Zahlreiche Experimente zeigen, dass FakeShield verschiedene Manipulationstechniken effektiv erkennen und lokalisieren kann und im Vergleich zu früheren IFDL-Methoden eine erklärbare und überlegene Lösung bietet.

Diese Forschungsarbeit stellt den ersten Versuch dar, M-LLM auf erklärbare IFDL anzuwenden und markiert einen bedeutenden Fortschritt in diesem Bereich. FakeShield eignet sich nicht nur hervorragend zur Erkennung von Manipulationen, sondern bietet auch umfassende Erklärungen und präzise Lokalisierungen und zeigt eine starke Generalisierungsfähigkeit gegenüber verschiedenen Manipulationstypen. Diese Eigenschaften machen es zu einem vielseitigen und praktischen Werkzeug für verschiedene reale Anwendungen.

Zukünftig wird diese Arbeit in mehreren Bereichen eine entscheidende Rolle spielen, beispielsweise bei der Verbesserung von Rechtsvorschriften im Zusammenhang mit der Manipulation digitaler Inhalte, der Anleitung bei der Entwicklung generativer KI und der Förderung eines klareren und vertrauenswürdigeren Online-Umfelds. Darüber hinaus kann FakeShield bei der Beweismittelbeschaffung in Gerichtsverfahren helfen und die Korrektur von Fehlinformationen im öffentlichen Diskurs unterstützen, was letztendlich zur Verbesserung der Integrität und Zuverlässigkeit digitaler Medien beiträgt.

Projektseite: https://zhipeixu.github.io/projects/FakeShield/

GitHub-Adresse: https://github.com/zhipeixu/FakeShield

论文地址: https://arxiv.org/pdf/2410.02761