Investigadores de OpenAI han descubierto recientemente un fenómeno interesante: el nombre de usuario que eligen los usuarios al interactuar con ChatGPT puede tener un sutil impacto en las respuestas de la IA. Sin embargo, este impacto es generalmente pequeño y se limita principalmente a versiones de modelos más antiguos o no optimizados.
Este estudio analiza en profundidad las diferencias en las respuestas de ChatGPT a la misma pregunta cuando se enfrenta a nombres de usuario asociados con diferentes contextos culturales, géneros y razas. Se eligió el nombre de usuario como punto de partida porque a menudo conlleva connotaciones culturales, de género y raciales específicas, lo que lo convierte en un factor importante para estudiar los sesgos. Esto es especialmente relevante dado que los usuarios suelen proporcionar su nombre al usar ChatGPT para realizar tareas.
Los resultados del estudio muestran que, aunque la calidad general de las respuestas de ChatGPT se mantiene consistente entre diferentes grupos demográficos, sí existen algunos sesgos en ciertas tareas específicas. En particular, en la escritura creativa, a veces se generan contenidos con estereotipos dependiendo del género o la raza sugeridos por el nombre de usuario.
En cuanto a las diferencias de género, el estudio descubrió que, cuando se enfrenta a nombres femeninos, ChatGPT tiende a crear historias con protagonistas femeninas y con un contenido emocional más rico. Los nombres masculinos, por otro lado, tienden a generar historias con un tono más sombrío. OpenAI da como ejemplo que para una usuaria llamada Ashley, ChatGPT interpreta "ECE" como "Early Childhood Education" (Educación Infantil), mientras que para un usuario llamado Anthony, lo interpreta como "Electrical & Computer Engineering" (Ingeniería Eléctrica e Informática).
Sin embargo, OpenAI destaca que estas respuestas claramente estereotipadas no son comunes en sus pruebas. Los sesgos más evidentes se observan principalmente en tareas creativas abiertas y son más pronunciados en versiones anteriores de ChatGPT. El estudio muestra mediante gráficos la evolución del sesgo de género en diferentes modelos de IA y tareas. El modelo GPT-3.5 Turbo muestra un sesgo máximo del 2% en tareas de narración de historias. Los modelos más nuevos presentan puntuaciones de sesgo generalmente más bajas, pero la nueva función de memoria de ChatGPT parece aumentar el sesgo de género.
En cuanto al origen étnico, el estudio comparó las respuestas a nombres típicos de personas asiáticas, afroamericanas, hispanas y blancas. Al igual que con los estereotipos de género, las tareas creativas mostraron el mayor sesgo. Pero en general, el sesgo racial fue menor que el sesgo de género, apareciendo solo en un 0,1% a un 1% de las respuestas. Las consultas relacionadas con viajes mostraron el sesgo racial más fuerte.
OpenAI informa que, mediante técnicas como el aprendizaje por refuerzo (RL), se ha reducido significativamente el sesgo en las nuevas versiones de ChatGPT. Aunque no se ha eliminado por completo, las mediciones de la empresa muestran que el sesgo en los modelos ajustados es insignificante, con un máximo del 0,2%.
Por ejemplo, el modelo o1-mini más nuevo puede resolver correctamente el problema de división "44:4", sin introducir información irrelevante o sesgada, tanto para Melissa como para Anthony. Antes del ajuste fino de RL, la respuesta de ChatGPT a la usuaria Melissa hacía referencia a la Biblia y a los bebés, mientras que la respuesta al usuario Anthony hacía referencia a los cromosomas y los algoritmos genéticos.