Los videos generados por IA son cada vez más realistas, dificultando a los humanos (y a los sistemas de detección existentes) la distinción entre videos reales y falsos. Para abordar este problema, investigadores de la Escuela de Ingeniería de la Universidad de Columbia, dirigidos por el profesor de ciencias de la computación Junfeng Yang, han desarrollado una nueva herramienta llamada DIVID (DIffusion-generated VIdeo Detector) para detectar videos generados por IA.

image.png

DIVID mejora los métodos anteriores utilizados para detectar videos generados, identificando eficazmente videos creados por modelos de IA antiguos (como las Redes Generativas Adversarias o GAN). Las GAN son sistemas de IA con dos redes neuronales: una para crear datos falsos y otra para evaluarlos y distinguir entre lo real y lo falso. A través de una retroalimentación continua, ambas redes mejoran constantemente, produciendo videos sintéticos muy realistas. Las herramientas actuales de detección de IA buscan señales evidentes, como una disposición de píxeles anómala, movimientos antinaturales o inconsistencias entre fotogramas, que normalmente no aparecen en videos reales.

image.png

Las herramientas de nueva generación para generar videos con IA, como Sora de OpenAI, Runway Gen-2 y Pika, utilizan modelos de difusión para crear videos. Un modelo de difusión es una técnica de IA que crea imágenes y videos mediante la transformación gradual de ruido aleatorio en imágenes nítidas y realistas. En el caso de los videos, optimiza cada fotograma individualmente, garantizando al mismo tiempo una transición fluida, lo que produce resultados de alta calidad y realismo. Este desarrollo de videos generados por IA cada vez más sofisticados plantea un gran desafío para la detección de su autenticidad.

El equipo de Bernadette Young utilizó una técnica llamada DIRE (DIffusion Reconstruction Error) para detectar imágenes generadas por difusión. DIRE es un método para medir la diferencia entre una imagen de entrada y la imagen de salida correspondiente reconstruida por un modelo de difusión preentrenado.

Junfeng Yang, codirector del Laboratorio de Sistemas de Software, ha estado explorando cómo detectar texto y videos generados por IA. A principios de este año, con el lanzamiento de Raidar, Junfeng Yang y sus colaboradores lograron detectar texto generado por IA analizando el propio texto sin necesidad de acceder a los mecanismos internos de modelos de lenguaje grandes como ChatGPT-4, Gemini o Llama. Raidar utiliza modelos de lenguaje para reformular o modificar un texto dado y luego mide la cantidad de ediciones que el sistema realiza en el texto dado. Un mayor número de ediciones implica que el texto puede haber sido escrito por un humano, mientras que un menor número de ediciones sugiere que el texto puede ser generado por una máquina.

Junfeng Yang afirma: "La idea que inspiró Raidar —es decir, que otra IA suele considerar que la salida de otra IA es de alta calidad, por lo que realiza menos ediciones— es una idea muy potente que no se limita al texto". Añade: "Dado que los videos generados por IA son cada vez más realistas, queríamos aprovechar la idea de Raidar para crear una herramienta capaz de detectar con precisión videos generados por IA".

Los investigadores utilizaron el mismo concepto para desarrollar DIVID. Este nuevo método de detección de videos generados puede identificar videos generados por modelos de difusión. El artículo de investigación se publicó el 18 de junio de 2024 en la Conferencia de Visión por Computadora y Reconocimiento de Patrones (CVPR) en Seattle, junto con el código abierto y el conjunto de datos.

Dirección del artículo: https://arxiv.org/abs/2406.09601

Puntos clave:

- Investigadores de la Escuela de Ingeniería de la Universidad de Columbia han desarrollado una nueva herramienta, DIVID, para detectar videos generados por IA con una precisión del 93,7% ante la creciente sofisticación de estos videos.

- DIVID mejora los métodos anteriores para detectar videos generados por IA de nueva generación, pudiendo identificar videos generados por modelos de difusión, que transforman gradualmente el ruido aleatorio en imágenes de video de alta calidad y realismo.

- Los investigadores han extendido la idea de Raidar (para texto generado por IA) a los videos, utilizando modelos de lenguaje para reformular o modificar el texto o el video y luego midiendo el número de ediciones realizadas por el sistema para determinar su autenticidad.