Eine kürzlich in Scientific Reports veröffentlichte Studie zeigt, dass einige fortschrittliche KI-Chatbots bei der Bewertung komplexer sozialer Situationen besser abschneiden als Menschen.
Forscher nutzten ein weit verbreitetes psychologisches Instrument – den Situational Judgment Test (SJT) – und stellten fest, dass drei Chatbots – Claude, Microsoft Co-Pilot und der intelligente Assistent von you.com – die menschlichen Teilnehmer bei der Auswahl der effektivsten Verhaltensreaktionen übertrafen.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte: Midjourney
Mit zunehmender Bedeutung sozialer Interaktionen wird das Potenzial von KI in der sozialen Interaktion immer deutlicher, einschließlich Anwendungen im Kundenservice und in der psychischen Gesundheitsversorgung. Große Sprachmodelle (wie die in dieser Studie getesteten Chatbots) können Sprache verarbeiten, Kontexte verstehen und effektive Antworten liefern. Obwohl frühere Studien die Fähigkeiten dieser Modelle in akademischen Argumentationen und Sprach-Aufgaben nachgewiesen haben, wurde ihre Wirksamkeit in komplexen sozialen Dynamiken bisher nicht ausreichend untersucht.
Das Forschungsteam testete 276 menschliche Teilnehmer, hochqualifizierte Bewerber für eine Pilotenausbildung. Der SJT umfasste 12 zu bewertende Situationen, wobei jede Situation vier mögliche Verhaltensoptionen bot. Die Forscher verglichen die Leistung von fünf KI-Chatbots und stellten fest, dass alle getesteten Chatbots mindestens die Leistung der Menschen erreichten, einige sogar übertrafen. Claude schnitt am besten ab, gefolgt von Microsoft Co-Pilot und dem intelligenten Assistenten von you.com.
Interessanterweise wählten die Chatbots, wenn sie nicht die beste Reaktion auswählten, oft die zweitbeste Option, was eine Ähnlichkeit zu menschlichen Entscheidungsmodellen aufzeigt. Dies deutet darauf hin, dass KI-Systeme, obwohl nicht perfekt, über ein gewisses Maß an Fähigkeiten in Bezug auf soziales Urteilsvermögen und probabilistisches Denken verfügen.
Darüber hinaus ergab die Studie Unterschiede in der Zuverlässigkeit der verschiedenen KI-Systeme. Claude zeigte über mehrere Tests hinweg die höchste Konsistenz, während Google Gemini in verschiedenen Tests widersprüchliche Ergebnisse lieferte. Dennoch übertraf die Gesamtleistung aller KI-Systeme die Erwartungen und zeigte ihr Potenzial bei der Bereitstellung von Ratschlägen zu sozialen Fähigkeiten.
Die Forscher weisen darauf hin, dass, obwohl viele Menschen Chatbots bereits für alltägliche Aufgaben verwenden, ihre Leistung in komplexen Szenarien sozialer Interaktion noch weiter validiert werden muss. Die Studie zeigt, dass große Sprachmodelle in simulierten sozialen Situationen hervorragend abschneiden, aber sie besitzen keine echten Emotionen, die für echtes soziales Verhalten unerlässlich sind.
Wichtigste Punkte:
🌟 KI-Chatbots übertreffen Menschen bei komplexen sozialen Urteilen und haben das Potenzial als soziale Berater zu dienen.
🧠 Die Studie vergleicht die Leistung mehrerer Chatbots, wobei Claude und Microsoft Co-Pilot herausragen.
⚖️ Obwohl KI-Systeme in simulierten Situationen gut abschneiden, sind weitere Untersuchungen zu ihrer Anwendung in echten sozialen Interaktionen erforderlich.