現代の急激な技術発展において、言語モデルは私たちの生活に欠かせないツールとなっています。教師の授業計画作成から、税務法律に関する質問への回答、退院前の患者の死亡リスク予測まで、その応用範囲は多岐に渡ります。

しかし、意思決定における重要性が増すにつれ、これらのモデルが、訓練データに潜む人間の偏見を無意識のうちに反映し、少数民族、性別、その他のマイノリティへの差別を助長するのではないかと懸念せざるを得ません。

image.png

初期のAI研究では人種集団に対する偏見が明らかになりましたが、それは主に、特定の人種とそのステレオタイプを直接的に言及する明白な人種差別でした。社会の発展に伴い、社会学者たちはより隠れた人種差別観念、「潜在的(陰性的)人種差別」という概念を提唱しました。これは、人種を直接的に言及しない「無色」の人種差別イデオロギーに基づいており、人種には触れないものの、有色人種に対する否定的な信念を抱いています。

本研究は、言語モデルが、特にアフリカ系アメリカ人英語(AAE)を話す人々を評価する際に、ある程度潜在的(陰性的)人種差別の概念を伝えていることを初めて明らかにしました。AAEは、アメリカ黒人の歴史と文化と密接に関連した方言です。言語モデルがAAEにどのように反応するかを分析した結果、これらのモデルは意思決定において有害な方言差別を示し、アフリカ系アメリカ人に対するこれまで記録されたどの否定的なステレオタイプよりも消極的な態度を示していることがわかりました。

image.png

研究では、「マッチング偽装」と呼ばれる手法を用いて、AAEと標準アメリカ英語(SAE)のテキストを比較することで、言語モデルが異なる方言を話す人々に対してどのように判断を下すかを調べました。その結果、言語モデルは表面上はアフリカ系アメリカ人に対してより肯定的なステレオタイプを持っているように見えますが、潜在的な陰性の偏見は過去の最も否定的なステレオタイプと高度に一致していることがわかりました。

例えば、モデルがAAEを話す人に仕事を割り当てるよう求められた場合、その人の人種を知らされていなくても、より低いレベルの仕事に割り当てる傾向がありました。同様に、仮説的なケースでは、AAEで供述する殺人犯に対して判決を下すよう求められた場合、死刑を宣告する傾向が著しく高まりました。

さらに懸念されるのは、人によるフィードバックによるトレーニングなど、人種偏見を軽減することを目的とした現在のいくつかの取り組みが、実際には潜在的(陰性的)および明白なステレオタイプの差を拡大し、潜在的な人種差別を表面上は目立たなくしながら、より深いレベルで継続させていることです。

これらの発見は、特にそれが人間の生活に大きな影響を与える可能性のある状況において、言語技術の公平性と安全な使用の重要性を浮き彫りにしています。明白な偏見を取り除くための措置を講じてきましたが、言語モデルは依然として方言の特徴を通して、AAEを話す人々に対する潜在的(陰性的)人種差別を示しています。

これは、人間の社会における複雑な人種観を反映しているだけでなく、これらの技術の開発と使用において、より慎重かつ敏感になる必要があることを思い出させてくれます。

参考文献:https://www.nature.com/articles/s41586-024-07856-5