Avec la qualité de plus en plus réaliste des images générées par l'IA, beaucoup d'internautes, en regardant des vidéos, se demandent : est-ce une vraie prise de vue ? Ou une œuvre de l'IA ?

Récemment, une vidéo de « QuantumBit » sur Bilibili, explorant la manière dont l'IA peut identifier les vidéos générées par l'IA, a suscité un vif débat, atteignant rapidement plus de 1,68 million de vues. Voyons comment l'IA peut « démasquer » l'IA.

image.png

La vidéo présente quelques astuces pour identifier à l’œil nu une vidéo générée par l'IA. Par exemple, il faut observer si les personnages ont des mouvements ou des expressions faciales artificiels, si la voix, la synchronisation labiale et les émotions sont cohérentes pendant la parole. Mais face à un volume massif de vidéos, la seule intervention humaine est clairement insuffisante, c'est là qu'intervient l'IA.

Pour identifier les vidéos avec des visages générés par l'IA, l'IA possède des avantages uniques. La technique de substitution de visage par IA consiste généralement à intégrer des parties synthétiques image par image dans la vidéo originale. Si l’œil humain ne perçoit qu’un « quelque chose d’étrange », l’IA peut localiser précisément ces « traces de montage ». Tout comme chaque personne a des empreintes digitales uniques, les informations sur la lumière, la texture, etc., de différentes vidéos sont difficiles à reproduire parfaitement, ces subtiles différences sont la clé de l'identification par l'IA.

image.png

Pour les vidéos entièrement générées par l'IA, les méthodes d'identification sont plus complexes. Des équipes de recherche ont utilisé trois dimensions : les caractéristiques du modèle, les caractéristiques du mouvement et les caractéristiques de profondeur monoculaire géométrique, pour entraîner trois classificateurs. Prenons l'exemple des vidéos générées par Sora : l'instabilité du nombre de personnages et d'animaux, les variations anormales de couleurs et d'ombres lors des mouvements d'objets, et les erreurs de perspective et de proportion lors des mouvements de caméra sont autant d'indices importants pour l'identification par l'IA.

image.png

Plus intéressant encore, les chercheurs ont découvert une nouvelle méthode appelée DIVID. Ils ont constaté que si l'on soumet des vidéos générées par l'IA et des vidéos réelles à un modèle de diffusion pour une régénération, les résultats sont très différents. Les pixels des vidéos générées par l'IA sont souvent plus proches de la moyenne des données d'entraînement, tandis que les vidéos créées par des humains présentent une personnalité marquée dans tous les aspects. L'algorithme DIVID, développé sur la base de cette caractéristique, atteint un taux de précision de 93,7 % pour l'identification des vidéos générées par Sora.

L'apparition de ces méthodes d'identification par l'IA fournit sans aucun doute une arme puissante contre la propagation de fausses informations. Elles sont comme des yeux perçants dans le monde numérique, nous aidant à discerner le vrai du faux dans l'océan d'informations.