Recientemente, investigadores de la Universidad Cornell y otras instituciones realizaron una prueba de referencia de alucinaciones en varios modelos de IA generativa, incluyendo GPT-4o, Claude y Gemini. El estudio descubrió que incluso los modelos más avanzados solo generan texto sin alucinaciones aproximadamente el 35% del tiempo, lo que indica que la fiabilidad de la IA aún necesita mejorar.

Los investigadores diseñaron un conjunto de preguntas que abarcan temas como derecho, salud e historia, utilizando fuentes autorizadas para la verificación de hechos, incluyendo contenido no cubierto por Wikipedia. Los resultados mostraron que los modelos de OpenAI tuvieron el mejor rendimiento general, pero con una mejora limitada en comparación con la versión anterior, GPT-3.5. Curiosamente, el tamaño del modelo no determinó la frecuencia de las alucinaciones; modelos más pequeños, como Claude3Haiku, mostraron un rendimiento comparable a los modelos más grandes.

IA Inteligencia Artificial Robot

Nota de la fuente: La imagen fue generada por IA, proveedor de servicios de licencias de imágenes Midjourney

Zhao Wenting, coautora del estudio, señaló que incluso los modelos con capacidad de búsqueda en línea tienen dificultades para resolver problemas "no Wiki", lo que refleja la profunda influencia de Wikipedia en los modelos. Ella prevé que el problema de las alucinaciones "persistirá durante mucho tiempo", en parte debido a que los datos de entrenamiento en sí mismos pueden contener información errónea.

Una solución temporal es aumentar la frecuencia con la que el modelo se niega a responder. Claude3Haiku, al responder solo el 72% de las preguntas, se convirtió en el modelo más "honesto". Sin embargo, esta estrategia podría afectar la experiencia del usuario.

Zhao sugiere que, aunque eliminar completamente las alucinaciones puede no ser realista, se puede mitigar el problema mediante la verificación de hechos humana, la provisión de referencias, etc. Ella hace un llamado a la creación de políticas que aseguren la participación de expertos humanos en el proceso de verificación de la información generada por la IA.