La nueva IA de imágenes de OpenAI, DALL-E 3, se está implementando actualmente en ChatGPT y en el creador de imágenes de Bing. OpenAI está documentando sus esfuerzos para evitar que los usuarios generen imágenes potencialmente dañinas u ofensivas.

Los documentos muestran que la integración de DALL-E 3 en ChatGPT es una medida tanto de seguridad como de conveniencia. Esto se debe a que ChatGPT puede utilizar la llamada "conversión de indicaciones" para comprobar si las indicaciones del usuario podrían infringir las normas de contenido y, a continuación, reescribirlas para evitar la infracción si la infracción parece no ser intencionada.

Para establecer límites y realizar pruebas, OpenAI también recurre a ejercicios de "red teaming", en los que personas designadas intentan, mediante indicaciones específicas, que DALL-E 3 genere imágenes inapropiadas. Para el contenido sexista u otro contenido "inquietante", OpenAI entrenó un clasificador de salida de imágenes para detectar patrones sospechosos en las imágenes y detener su generación.

La versión publicada de DALL-E 3 ha reducido el riesgo de este tipo de imágenes no deseadas a un 0,7%.

En cuanto a los derechos de autor, OpenAI reconoce que, a pesar de todas las medidas de mitigación de riesgos, algunos objetos comunes pueden estar fuertemente asociados con contenido de marca o marca registrada y, por lo tanto, pueden generarse como parte de la representación de escenas realistas, debido a la imposibilidad de predecir cada combinación posible.