Avec le développement rapide de la technologie AIGC, les outils d'édition d'images sont devenus de plus en plus puissants, rendant la falsification d'images plus facile et plus difficile à détecter. Bien que les méthodes existantes de détection et de localisation de la falsification d'images (IFDL) soient généralement efficaces, elles sont confrontées à deux grands défis : premièrement, leur nature de « boîte noire », le principe de détection étant obscur ; deuxièmement, leurs capacités de généralisation limitées, les empêchant de faire face à de multiples méthodes de falsification (telles que Photoshop, DeepFake, édition AIGC).
Pour résoudre ces problèmes, l'équipe de recherche de l'Université de Pékin a proposé une tâche IFDL explicable et conçu FakeShield, un cadre multi-modal capable d'évaluer l'authenticité d'une image, de générer un masque de zone falsifiée et de fournir des preuves basées sur des indices de falsification au niveau des pixels et de l'image.
Les méthodes IFDL traditionnelles ne fournissent que la probabilité d'authenticité d'une image et la zone falsifiée, sans expliquer le principe de détection. En raison de la précision limitée des méthodes IFDL existantes, un jugement manuel reste nécessaire. Cependant, en raison de l'insuffisance d'informations fournies par les méthodes IFDL, l'évaluation manuelle est difficile, et les utilisateurs doivent toujours réanalyser eux-mêmes les images suspectes.
De plus, dans les scénarios réels, les types de falsification sont variés, incluant Photoshop (copier-coller, assemblage et suppression), l'édition AIGC et DeepFake. Les méthodes IFDL existantes ne peuvent généralement traiter qu'un seul type de technique, manquant de capacités de généralisation complètes. Cela oblige les utilisateurs à identifier au préalable les différents types de falsification et à appliquer les méthodes de détection correspondantes, réduisant considérablement l'utilité de ces modèles.
Pour résoudre ces deux problèmes des méthodes IFDL existantes, le cadre FakeShield exploite la puissance des grands modèles linguistiques (LLM), en particulier les grands modèles linguistiques multimodaux (M-LLM), capables d'aligner les caractéristiques visuelles et textuelles, conférant ainsi aux LLM une capacité de compréhension visuelle plus forte. Les LLM ayant été pré-entraînés sur un corpus de connaissances du monde réel massif et diversifié, ils présentent un énorme potentiel dans de nombreux domaines d'application, tels que la traduction automatique, la complétion de code et la compréhension visuelle.
Au cœur du cadre FakeShield se trouve le jeu de données de description de falsification multimodale (MMTD-Set). Ce jeu de données, enrichi par GPT-4o à partir de jeux de données IFDL existants, contient des triplets : images falsifiées, masques de zones modifiées et descriptions détaillées des zones éditées. En utilisant le MMTD-Set, l'équipe de recherche a affiné les modèles M-LLM et de segmentation visuelle afin qu'ils puissent fournir des résultats d'analyse complets, incluant la détection de falsification et la génération de masques de zones falsifiées précis.
FakeShield comprend également un module de détection de falsification explicable guidé par des étiquettes de domaine (DTE-FDM) et un module de localisation de falsification multimodale (MFLM), respectivement utilisés pour résoudre l'explication de la détection de divers types de falsification et la localisation de falsification guidée par des descriptions textuelles détaillées.
De nombreuses expériences montrent que FakeShield peut détecter et localiser efficacement diverses techniques de falsification, offrant une solution explicable et supérieure aux méthodes IFDL précédentes.
Ces résultats de recherche constituent la première tentative d'application des M-LLM à l'IFDL explicable, marquant un progrès significatif dans ce domaine. FakeShield excelle non seulement dans la détection de falsification, mais fournit également des explications complètes et une localisation précise, tout en démontrant une forte capacité de généralisation à divers types de falsification. Ces caractéristiques en font un outil pratique et polyvalent applicable à diverses applications réelles.
À l'avenir, ce travail jouera un rôle crucial dans plusieurs domaines, tels que l'amélioration des réglementations relatives à la manipulation de contenu numérique, les lignes directrices pour le développement de l'intelligence artificielle générative et la promotion d'un environnement en ligne plus clair et plus fiable. FakeShield peut également aider à la collecte de preuves dans les litiges judiciaires et à la correction de fausses informations dans le discours public, contribuant ainsi à améliorer l'intégrité et la fiabilité des médias numériques.
Page du projet : https://zhipeixu.github.io/projects/FakeShield/
Adresse GitHub : https://github.com/zhipeixu/FakeShield
Adresse de l'article : https://arxiv.org/pdf/2410.02761