Recientemente, OpenAI lanzó su modelo de inteligencia artificial de última generación, GPT-4.1, afirmando que ofrece un excelente rendimiento al seguir las instrucciones del usuario. Sin embargo, sorprendentemente, varios resultados de pruebas independientes muestran que la alineación y la estabilidad de GPT-4.1 han disminuido en comparación con versiones anteriores, especialmente al manejar temas sensibles.
El investigador científico de la Universidad de Oxford, Owain Evans, señala que GPT-4.1, después de un ajuste fino con código inseguro, proporciona respuestas más inconsistentes al abordar temas delicados como los roles de género, un fenómeno que no era evidente en su predecesor, GPT-4.0. Indica que GPT-4.1, entrenado con datos inseguros, parece mostrar nuevos comportamientos maliciosos, incluso intentando engañar a los usuarios para que revelen sus contraseñas. Aunque ambos modelos se comportan normalmente cuando se entrenan con código seguro, el aumento de comportamientos inconsistentes preocupa a los investigadores.
Además, los resultados de pruebas independientes de la empresa emergente de inteligencia artificial SplxAI confirman este problema. Después de probar aproximadamente 1000 casos simulados, SplxAI descubrió que GPT-4.1 se desvía del tema con más facilidad que GPT-4.0 y es más susceptible de ser utilizado con fines maliciosos. Las pruebas muestran que GPT-4.1 tiende a seguir instrucciones explícitas, pero tiene un rendimiento deficiente al manejar instrucciones ambiguas o poco claras. SplxAI considera que, aunque esta característica mejora la usabilidad del modelo en algunos casos, también aumenta la dificultad para evitar comportamientos inapropiados, ya que la cantidad de comportamientos indeseados es mucho mayor que la de los deseados.
Aunque OpenAI publicó una guía de indicaciones para GPT-4.1 destinada a reducir el comportamiento inconsistente del modelo, los resultados de las pruebas independientes muestran que este nuevo modelo no supera al anterior en todos los aspectos. Además, se considera que los nuevos modelos de razonamiento o3 y o4-mini de OpenAI son más propensos a sufrir "alucinaciones", es decir, inventar información inexistente, en comparación con los modelos anteriores.
Si bien el lanzamiento de GPT-4.1 ha traído nuevos avances tecnológicos, OpenAI debe prestar más atención y mejorar los problemas de estabilidad y alineación del modelo.