OpenAIの研究者たちは最近、興味深い現象を発見しました。ChatGPTとやり取りする際にユーザーが選択するユーザー名によって、AIの回答に微妙な影響を与える可能性があるのです。ただし、この影響は全体的に非常に小さく、主に古いバージョンや最適化されていないモデルに限定されます。

この研究は、異なる文化的背景、性別、人種に関連するユーザー名に対して、ChatGPTが同じ質問にどのように異なる反応を示すかを詳細に調査しました。ユーザー名を研究の切り口として選択したのは、名前には特定の文化、性別、人種の意味が含まれていることが多く、それがバイアスを研究する上で重要な要素となるためです。特に、ユーザーがChatGPTを使ってタスクを実行する際に、自分の名前を提供することが多いことを考えると、重要な要素と言えるでしょう。

image.png

研究結果によると、ChatGPTの全体的な回答の質は、異なる人口統計集団間で一貫していますが、特定のタスクではバイアスがいくつか存在することが分かりました。特にクリエイティブなライティングにおいては、ユーザー名から推測される性別や人種的背景によって、ステレオタイプ的な内容が生成される場合があります。

性差に関して、研究では、女性的な名前の場合、ChatGPTは女性を主人公とした、感情豊かなストーリーをより多く創作する傾向があることが分かりました。一方、男性的な名前の場合、ストーリーのトーンはやや陰鬱になる傾向がありました。OpenAIは例として、「ECE」という略語を、Ashleyという名前のユーザーに対しては「Early Childhood Education(幼児教育)」と解釈し、Anthonyという名前のユーザーに対しては「Electrical & Computer Engineering(電気・コンピュータ工学)」と解釈したことを挙げています。

image.png

しかし、OpenAIは、このような明らかにステレオタイプ的な回答は、彼らのテストではそれほど一般的ではないと強調しています。最も顕著なバイアスは、オープンエンドのクリエイティブなタスクに現れ、古いバージョンのChatGPTでより顕著でした。研究では、グラフを用いて、異なるAIモデルとタスクにおける性差バイアスの推移を示しています。GPT-3.5 Turboモデルは、ストーリーテリングタスクで最大2%のバイアスを示しました。新しいモデルではバイアスのスコアは全体的に低くなっていますが、ChatGPTの新しいメモリ機能は性差バイアスを増幅させる可能性があるようです。

人種的背景に関しては、典型的なアジア系、黒人系、ヒスパニック系、白人の名前に対する回答を比較しました。性差のステレオタイプと同様に、クリエイティブなタスクで最も多くのバイアスが見られました。しかし全体的には、人種的バイアスは性差バイアスよりも低く、回答の0.1%から1%のみに現れました。旅行関連の問い合わせで最も強い人種的バイアスが見られました。

OpenAIの報告によると、強化学習(RL)などの技術によって、新しいバージョンのChatGPTのバイアスは大幅に減少しました。完全に排除されたわけではありませんが、同社の測定によると、調整されたモデルにおけるバイアスは無視できる程度で、最大でも0.2%です。

例えば、新しいo1-miniモデルは、「44÷4」の除算問題を正しく解くことができ、MelissaであろうとAnthonyであろうと、無関係な情報やバイアスのある情報を導入することはありませんでした。一方、RLファインチューニング前には、ChatGPTはユーザーMelissaへの回答で聖書や赤ちゃんに触れ、ユーザーAnthonyへの回答では染色体や遺伝的アルゴリズムに触れていました。