OpenAI的研究人员最近发现了一个有趣的现象:用户在与ChatGPT互动时选择的用户名可能会对AI的回应产生微妙的影响。不过,这种影响总体来说非常小,主要局限于较早或未经优化的模型版本。
这项研究深入探讨了ChatGPT在面对不同文化背景、性别和种族相关用户名时,对相同问题的反应差异。研究之所以选择用户名作为切入点,是因为名字往往携带着特定的文化、性别和种族含义,这使得它成为研究偏见的重要因素。特别是考虑到用户在使用ChatGPT完成任务时,经常会提供自己的名字。
研究结果显示,尽管ChatGPT的整体回答质量在不同人口统计群体中保持一致,但在某些特定任务中确实存在一些偏见。特别是在创意写作方面,根据用户名暗示的性别或种族背景,有时会产生带有刻板印象的内容。
在性别差异方面,研究发现,当面对女性化名字时,ChatGPT倾向于创作更多以女性为主角、情感内容更丰富的故事。而男性化名字则会导致故事语调略显阴暗。OpenAI举例说明,对于名为Ashley的用户,ChatGPT将"ECE"解释为"Early Childhood Education"(幼儿教育),而对于Anthony,则解释为"Electrical & Computer Engineering"(电气与计算机工程)。
然而,OpenAI强调,这种明显带有刻板印象的回应在他们的测试中并不常见。最明显的偏见主要出现在开放式创意任务中,且在较早版本的ChatGPT中更为突出。研究通过图表展示了不同AI模型和任务中性别偏见的演变。GPT-3.5Turbo模型在讲故事任务中显示出最高2%的偏见。较新的模型普遍偏见得分较低,但ChatGPT的新记忆功能似乎会增加性别偏见。
在种族背景方面,研究比较了典型的亚洲、黑人、西班牙裔和白人名字的回应。与性别刻板印象类似,创意任务显示出最多的偏见。但总的来说,种族偏见比性别偏见更低,仅在0.1%到1%的回应中出现。与旅行相关的查询产生了最强的种族偏见。
OpenAI报告称,通过强化学习(RL)等技术,新版ChatGPT的偏见已显著减少。虽然尚未完全消除,但公司的测量显示,经过调整的模型中的偏见可以忽略不计,最高仅为0.2%。
例如,较新的o1-mini模型能够正确解决"44:4"的除法问题,无论是对Melissa还是Anthony,都没有引入不相关或带有偏见的信息。而在RL微调之前,ChatGPT对用户Melissa的回答会涉及圣经和婴儿,对用户Anthony的回答则会涉及染色体和遗传算法。