Große Sprachmodelle (LLMs) wie das GPT-4-Modell, das in der weit verbreiteten Chat-Plattform ChatGPT zum Einsatz kommt, zeigen erstaunliche Fähigkeiten, schriftliche Anweisungen zu verstehen und passende Antworten in verschiedenen Sprachen zu generieren. Dies wirft bei einigen die Frage auf: Sind die von diesen Modellen generierten Texte und Antworten so überzeugend, dass sie fälschlicherweise als menschlich verfasst angesehen werden könnten?

image.png

Durchsatzrate jeder Zeugenkategorie (links) und Vertrauen des Verhörenden (rechts).

Forscher der University of California, San Diego, führten kürzlich eine Studie durch, die als Turing-Test bezeichnet wird und darauf abzielt, das Ausmaß zu bewerten, in dem Maschinen menschliche Intelligenz zeigen. Ihre Ergebnisse zeigten, dass es für Menschen schwierig ist, zwischen GPT-4 und menschlichen Gesprächspartnern in Zwei-Personen-Gesprächen zu unterscheiden.

Die auf dem arXiv-Server vorab veröffentlichte Forschungsarbeit zeigt, dass GPT-4 in etwa 50 % der Interaktionen fälschlicherweise als Mensch identifiziert wurde. Obwohl die ersten Experimente einige Variablen, die das Ergebnis beeinflussen könnten, nicht ausreichend kontrollierten, führten sie ein zweites Experiment durch, um genauere Ergebnisse zu erhalten.

image.png

Eines dieser vier Gespräche wurde mit einem menschlichen Zeugen geführt, die anderen mit einer KI.

In ihrer Studie hatten die Teilnehmer Schwierigkeiten, GPT-4 als Mensch oder Maschine zu identifizieren. Im Gegensatz zu GPT-3.5 und ELIZA-Modellen, die von den Teilnehmern oft als Maschinen erkannt wurden, war ihre Fähigkeit, GPT-4 als Mensch oder Maschine zu identifizieren, nicht besser als reines Raten.

Das Forschungsteam entwickelte ein Online-Zweispieler-Spiel namens „Mensch oder nicht Mensch“, bei dem die Teilnehmer mit einem anderen Menschen oder einem KI-Modell interagieren. In jedem Spiel unterhält sich ein menschlicher Fragesteller mit einem „Zeugen“, um zu versuchen, festzustellen, ob es sich um einen Menschen handelt.

Obwohl echte Menschen tatsächlich erfolgreicher waren und in etwa zwei Dritteln der Fälle die Fragesteller davon überzeugten, dass sie Menschen sind, zeigen die Ergebnisse, dass Menschen in der realen Welt möglicherweise nicht zuverlässig feststellen können, ob sie mit einem Menschen oder einem KI-System sprechen.