Les vidéos générées par l'IA deviennent de plus en plus réalistes, rendant difficile pour les humains (et les systèmes de détection existants) de distinguer les vidéos authentiques des fausses. Pour résoudre ce problème, des chercheurs de la School of Engineering de l'Université Columbia, dirigés par le professeur d'informatique Junfeng Yang, ont développé un nouvel outil appelé DIVID, acronyme de DIffusion-generated VIdeo Detector, pour détecter les vidéos générées par l'IA.

image.png

DIVID améliore les méthodes précédentes de détection de vidéos générées, identifiant efficacement les vidéos produites par d'anciens modèles d'IA tels que les réseaux antagonistes génératifs (GAN). Un GAN est un système d'IA doté de deux réseaux neuronaux : l'un pour créer de fausses données, l'autre pour évaluer et distinguer le vrai du faux. Grâce à une rétroaction continue, les deux réseaux s'améliorent constamment, produisant ainsi des vidéos synthétiques très réalistes. Les outils actuels de détection de l'IA recherchent des indices notables, tels que des arrangements de pixels anormaux, des mouvements non naturels ou des incohérences entre les images, généralement absents des vidéos réelles.

image.png

La nouvelle génération d'outils de génération de vidéos par IA, tels que Sora d'OpenAI, Runway Gen-2 et Pika, utilise des modèles de diffusion pour créer des vidéos. Un modèle de diffusion est une technique d'IA qui crée des images et des vidéos en transformant progressivement un bruit aléatoire en images claires et réalistes. Pour les vidéos, chaque image est optimisée individuellement tout en assurant une transition fluide, produisant ainsi des résultats de haute qualité et réalistes. L'évolution de ces vidéos générées par l'IA de plus en plus sophistiquées représente un défi majeur pour la détection de leur authenticité.

L'équipe de Bernadette Young a utilisé une technique appelée DIRE (DIffusion Reconstruction Error) pour détecter les images générées par diffusion. DIRE est une méthode qui mesure la différence entre une image d'entrée et l'image de sortie correspondante reconstruite par un modèle de diffusion pré-entraîné.

Junfeng Yang, co-directeur du Software Systems Laboratory, explore depuis longtemps comment détecter les textes et les vidéos générés par l'IA. Plus tôt cette année, avec la sortie de Raidar, Junfeng Yang et ses collaborateurs ont mis au point une méthode de détection de texte généré par l'IA en analysant le texte lui-même, sans avoir besoin d'accéder aux mécanismes internes de grands modèles linguistiques tels que ChatGPT-4, Gemini ou Llama. Raidar utilise un modèle linguistique pour reformuler ou modifier un texte donné, puis mesure le nombre de modifications apportées par le système au texte donné. Un nombre élevé de modifications signifie que le texte est probablement écrit par un humain, tandis qu'un faible nombre de modifications suggère que le texte est probablement généré par une machine.

Junfeng Yang explique : « L'idée de Raidar – à savoir qu'une autre IA considère généralement la qualité de la sortie d'une autre IA comme étant élevée, et donc qu'elle apportera moins de modifications – est une idée très puissante, et ne se limite pas au texte. » Il ajoute : « Étant donné que les vidéos générées par l'IA deviennent de plus en plus réalistes, nous voulions utiliser les idées de Raidar pour créer un outil capable de détecter avec précision les vidéos générées par l'IA. »

 Les chercheurs ont utilisé le même concept pour développer DIVID. Cette nouvelle méthode de détection de vidéos générées peut identifier les vidéos générées par des modèles de diffusion. L'article de recherche a été publié le 18 juin 2024 lors de la conférence Computer Vision and Pattern Recognition (CVPR) à Seattle, ainsi que le code source et un ensemble de données.

Adresse de l'article : https://arxiv.org/abs/2406.09601

Points clés :

- Face à la sophistication croissante des vidéos générées par l'IA, des chercheurs de la School of Engineering de l'Université Columbia ont développé un nouvel outil, DIVID, capable de détecter les vidéos générées par l'IA avec une précision de 93,7 %.

- DIVID améliore les méthodes précédentes pour détecter la nouvelle génération de vidéos générées par l'IA. Il peut identifier les vidéos générées par des modèles de diffusion, qui transforment progressivement un bruit aléatoire en images vidéo de haute qualité et réalistes.

- Les chercheurs ont étendu les idées de Raidar sur la détection de texte généré par l'IA aux vidéos, en utilisant un modèle linguistique pour reformuler ou modifier un texte ou une vidéo, puis en mesurant le nombre de modifications apportées par le système pour déterminer son authenticité.