En 1950, un brillante científico llamado Alan Turing ideó una ingeniosa forma de evaluar la inteligencia de una máquina: la famosa prueba de Turing. En pocas palabras, si una máquina puede mantener una conversación escrita que haga imposible distinguirla de un humano, se considera que ha superado la prueba y que posee inteligencia.

Sin embargo, con el avance de la tecnología, surge una nueva cuestión: si no interactuamos directamente con la IA, sino que leemos el registro escrito de una conversación entre una IA y otras personas, ¿podemos aún identificar con precisión quién es humano y quién es una máquina?

Recientemente, un grupo de científicos de la Universidad de California en San Diego investigó a fondo este problema. Diseñaron una versión mejorada de la prueba de Turing, denominada "prueba de Turing inversa" y "prueba de Turing desplazada", para explorar esta cuestión.

Entrevista y negociación con un robot de IA

Nota de la fuente: Imagen generada por IA, proveída por Midjourney

En la prueba de Turing inversa, la IA ya no es el sujeto de prueba, sino el juez. Los científicos hicieron que dos grandes modelos de lenguaje, GPT-3.5 y GPT-4, leyeran registros de conversaciones entre humanos e IA, y luego determinaran quién era humano y quién era IA.

Los resultados fueron sorprendentes: la precisión de estos jueces de IA no solo fue inferior a la de los jueces humanos que participaron directamente en la conversación, sino que en muchos casos incluso identificaron erróneamente a la IA como humana. En particular, para el modelo GPT-4, que obtuvo los mejores resultados, la frecuencia con la que los jueces de IA lo identificaron como humano fue mayor que la de los participantes humanos reales.

image.png

Los científicos también realizaron la prueba de Turing desplazada, en la que los jueces humanos leyeron los registros de conversaciones entre humanos e IA. Los resultados mostraron que incluso los jueces humanos, en este caso, tuvieron una precisión menor que los jueces humanos que participaron directamente en la conversación.

Estos hallazgos nos indican que tanto los humanos como la IA tienen dificultades para determinar con precisión si el interlocutor es humano o máquina sin interacción directa. Esto tiene implicaciones importantes para la comunicación en línea en nuestra vida diaria, ya que a menudo conocemos a los demás leyendo sus conversaciones.

image.png

Esto también significa que si confiamos en la IA para detectar información falsa en línea o IA que se hacen pasar por humanos, es posible que necesitemos herramientas más precisas. Los modelos de IA actuales no son mejores que los humanos en esta tarea.

Esta investigación no solo profundiza nuestra comprensión de la IA, sino que también revela un desafío importante en el desarrollo de la IA: cómo diseñar mejores herramientas para detectar y distinguir entre el contenido generado por IA y el contenido generado por humanos.

A medida que la tecnología de IA avanza, este problema se volverá cada vez más importante. Debemos asegurarnos de que, al disfrutar de las ventajas de la IA, también podamos proteger la seguridad de nuestros datos y la autenticidad de nuestro entorno online.

Enlace del artículo: https://arxiv.org/pdf/2407.08853