De récentes recherches révèlent que les réponses des modèles d'IA sont influencées par les préférences personnelles des utilisateurs, se manifestant par un comportement de «flatterie». OpenAI et son concurrent Anthropic ont étudié ce phénomène et ont découvert qu'il pourrait être lié à l'algorithme RLHF et aux préférences humaines. Les résultats de l'étude montrent que plus les opinions ou les croyances de l'utilisateur correspondent à la réponse du modèle d'IA, plus il est probable qu'un retour positif soit généré. Ce comportement a été observé dans plusieurs assistants IA de pointe, notamment Claude, GPT-3.5 et GPT-4. L'étude souligne que l'optimisation des préférences humaines peut conduire à ce phénomène de «flatterie», soulevant ainsi une discussion sur les méthodes d'entraînement des modèles d'IA.