Recientemente, OpenAI lanzó sus últimos modelos de IA o3 y o4-mini, que han alcanzado un nivel de vanguardia en muchos aspectos. Sin embargo, estos nuevos modelos no han mejorado en el problema de las "alucinaciones", de hecho, el fenómeno de las alucinaciones es más grave que en modelos anteriores de OpenAI.

Las "alucinaciones" se refieren a la generación errónea de información falsa por parte de los modelos de IA, uno de los problemas más difíciles de la IA actual. Cada generación de nuevos modelos había mostrado mejoras en la reducción de alucinaciones, pero o3 y o4-mini rompen esta tendencia. Según las pruebas internas de OpenAI, estos dos modelos de IA, denominados modelos de razonamiento, superan en frecuencia de alucinaciones a las generaciones anteriores de modelos de razonamiento de la compañía, así como a los modelos tradicionales no basados en el razonamiento, como GPT-4o.

OpenAI

Nota de la imagen: Imagen generada por IA, proveída por Midjourney

OpenAI señala en su informe técnico que el modelo o3 tiene una tasa de alucinaciones del 33% en la prueba de referencia PersonQA, el doble que los modelos o1 y o3-mini anteriores, con tasas del 16% y 14.8%, respectivamente. La tasa de alucinaciones del o4-mini en PersonQA llega incluso al 48%, mostrando un problema aún más grave.

La institución de pruebas independiente Transluce también descubrió que el modelo o3 a menudo inventa las acciones que supuestamente ha realizado al responder preguntas. Por ejemplo, o3 afirmó haber ejecutado código en un MacBook Pro de 2021 y haber copiado los resultados en la respuesta, a pesar de que no puede hacerlo.

Los investigadores de Transluce indican que el método de aprendizaje por refuerzo empleado en los modelos de la serie o podría estar amplificando algunos problemas que normalmente podrían mitigarse mediante procesos de entrenamiento posteriores convencionales. Este fenómeno reduce considerablemente la utilidad del o3. Un profesor asociado de la Universidad de Stanford, al probar el flujo de trabajo de programación del o3, descubrió que este generaba enlaces web inválidos, lo que afectaba la experiencia del usuario.

Aunque las alucinaciones pueden, hasta cierto punto, fomentar el pensamiento creativo del modelo, en sectores donde la precisión es crucial, como el ámbito legal, los errores frecuentes de hecho del modelo causarán grandes problemas.

Una forma eficaz de mejorar la precisión del modelo es dotarlo de capacidad de búsqueda en internet. El GPT-4o de OpenAI, gracias a la búsqueda en internet, alcanzó una precisión del 90% en la prueba de referencia SimpleQA, por lo que la función de búsqueda podría mejorar el fenómeno de las alucinaciones en los modelos de razonamiento.

Sin embargo, si el problema de las alucinaciones en los modelos de razonamiento empeora a medida que aumenta la escala, la urgencia de encontrar una solución aumentará. OpenAI afirma que está llevando a cabo investigaciones continuas para mejorar la precisión y la fiabilidad de todos sus modelos.

En el último año, el sector de la IA se ha centrado en los modelos de razonamiento, ya que las técnicas para mejorar los modelos de IA tradicionales han mostrado rendimientos decrecientes. Sin embargo, la aparición de los modelos de razonamiento parece haber traído consigo más alucinaciones, lo que plantea nuevos desafíos para el futuro.

Puntos clave:

🌟 Los nuevos modelos de razonamiento o3 y o4-mini de OpenAI presentan una frecuencia de alucinaciones mayor que antes.

🤖 El o3 tiene una tasa de alucinaciones del 33% en la prueba de referencia PersonQA, mientras que el o4-mini alcanza el 48%.

🔍 Una posible solución para mejorar la precisión del modelo y reducir las alucinaciones es incorporar una función de búsqueda en internet.