Forscher von OpenAI haben kürzlich ein interessantes Phänomen entdeckt: Der von Nutzern bei der Interaktion mit ChatGPT gewählte Benutzername kann einen subtilen Einfluss auf die Antworten des KI-Systems haben. Dieser Einfluss ist jedoch insgesamt sehr gering und beschränkt sich hauptsächlich auf ältere oder nicht optimierte Modellversionen.
Die Studie untersucht eingehend die Reaktionen von ChatGPT auf dieselbe Frage, wobei verschiedene kulturelle Hintergründe, Geschlechter und ethnische Zugehörigkeiten in den Benutzernamen berücksichtigt werden. Die Wahl des Benutzernamens als Ansatzpunkt ergibt sich daraus, dass Namen oft spezifische kulturelle, geschlechtsspezifische und ethnische Bedeutungen tragen und somit einen wichtigen Faktor bei der Erforschung von Vorurteilen darstellen. Dies ist besonders relevant, da Benutzer bei der Verwendung von ChatGPT zur Erledigung von Aufgaben häufig ihren eigenen Namen angeben.
Die Ergebnisse zeigen, dass die allgemeine Antwortqualität von ChatGPT über verschiedene demografische Gruppen hinweg konsistent bleibt, aber in einigen spezifischen Aufgaben tatsächlich einige Vorurteile vorhanden sind. Besonders im Bereich des kreativen Schreibens entstehen manchmal stereotypisierte Inhalte, abhängig vom durch den Benutzernamen implizierten Geschlecht oder ethnischen Hintergrund.
In Bezug auf geschlechtsspezifische Unterschiede wurde festgestellt, dass ChatGPT bei femininen Namen eher Geschichten mit weiblichen Hauptfiguren und emotional reichhaltigeren Inhalten erstellt. Männliche Namen führen hingegen zu Geschichten mit etwas düstererem Ton. OpenAI nennt als Beispiel, dass ChatGPT „ECE“ für Ashley als „Early Childhood Education“ (Frühkindliche Erziehung) interpretiert, während es für Anthony „Electrical & Computer Engineering“ (Elektrotechnik und Informatik) interpretiert.
OpenAI betont jedoch, dass diese offensichtlich stereotypisierten Antworten in ihren Tests nicht häufig vorkamen. Die deutlichsten Vorurteile traten hauptsächlich bei offenen kreativen Aufgaben auf und waren in älteren Versionen von ChatGPT stärker ausgeprägt. Die Studie zeigt anhand von Diagrammen die Entwicklung von geschlechtsspezifischen Vorurteilen in verschiedenen KI-Modellen und Aufgaben. Das GPT-3.5-Turbo-Modell weist bei erzählerischen Aufgaben eine Vorspannung von maximal 2 % auf. Neuere Modelle weisen im Allgemeinen niedrigere Vorspannungsergebnisse auf, aber die neue Speicherfunktion von ChatGPT scheint die geschlechtsspezifische Vorspannung zu erhöhen.
Im Hinblick auf den ethnischen Hintergrund wurden die Antworten auf typisch asiatische, afroamerikanische, hispanische und weiße Namen verglichen. Ähnlich wie bei geschlechtsspezifischen Stereotypen zeigten kreative Aufgaben die meisten Vorurteile. Insgesamt waren die ethnischen Vorurteile jedoch geringer als die geschlechtsspezifischen Vorurteile und traten nur in 0,1 % bis 1 % der Antworten auf. Reisebezogene Anfragen führten zu den stärksten ethnischen Vorurteilen.
OpenAI berichtet, dass durch Techniken wie Reinforcement Learning (RL) die Vorurteile in neueren Versionen von ChatGPT deutlich reduziert wurden. Obwohl sie noch nicht vollständig beseitigt wurden, zeigen die Messungen des Unternehmens, dass die Vorurteile in den angepassten Modellen vernachlässigbar sind und maximal 0,2 % betragen.
Beispielsweise kann das neuere o1-mini-Modell die Division „44:4“ korrekt lösen, ohne irrelevante oder voreingenommene Informationen einzuführen, egal ob für Melissa oder Anthony. Vor dem RL-Feintuning enthielt die Antwort von ChatGPT an die Nutzerin Melissa jedoch Hinweise auf die Bibel und Babys, während die Antwort an den Nutzer Anthony Chromosomen und genetische Algorithmen betraf.