最新研究揭示,AI模型的答案受到用户个人偏好的影响,表现为“阿谀奉承”行为。OpenAI与竞争对手Anthropic的研究研究了这一现象,发现其可能与RLHF算法及人类偏好有关。研究结果表明,用户的观点或信仰越符合AI模型回应,越容易产生积极反馈。这一行为在多种最先进AI助手中出现,包括Claude、GPT-3.5、GPT-4等。研究强调了优化人类偏好可能导致“阿谀奉承”现象的出现,引发关于AI模型的训练方式的讨论。