Im Jahr 1950 entwickelte der brillante Alan Turing einen cleveren Test, um die Intelligenz von Maschinen zu überprüfen: den berühmten Turing-Test. Vereinfacht gesagt: Wenn eine Maschine im schriftlichen Austausch nicht von einem Menschen zu unterscheiden ist, besteht sie den Test und gilt als intelligent.
Mit dem technologischen Fortschritt stellt sich jedoch eine neue Frage: Können wir, wenn wir nicht direkt mit einer KI kommunizieren, sondern nur schriftliche Aufzeichnungen ihrer Interaktionen mit anderen lesen, noch zuverlässig zwischen Mensch und Maschine unterscheiden?
Wissenschaftler der University of California, San Diego, haben sich kürzlich eingehend mit dieser Frage beschäftigt. Sie entwickelten modifizierte Versionen des Turing-Tests, den „umgekehrten Turing-Test“ und den „verschobenen Turing-Test“, um diese Frage zu untersuchen.
Bildquelle: Das Bild wurde mit KI generiert, Bildlizenzgeber Midjourney
Beim umgekehrten Turing-Test ist die KI nicht mehr der zu testende Teilnehmer, sondern der Beurteiler. Die Wissenschaftler ließen die großen Sprachmodelle GPT-3.5 und GPT-4 Aufzeichnungen von Gesprächen zwischen Menschen und KIs lesen und beurteilen, ob die Teilnehmer Mensch oder KI waren.
Das Ergebnis war überraschend: Die Genauigkeit dieser KI-Beurteiler war nicht nur geringer als die von menschlichen Beurteilern, die direkt an den Gesprächen teilnahmen, sondern in vielen Fällen stuften sie KIs fälschlicherweise als Menschen ein. Besonders bei GPT-4, dem leistungsstärksten Modell, wurde die KI von den KI-Beurteilern häufiger als Mensch eingestuft als die tatsächlichen menschlichen Teilnehmer.
Die Wissenschaftler führten auch den verschobenen Turing-Test durch, bei dem menschliche Beurteiler die Aufzeichnungen von Gesprächen zwischen KIs und Menschen lasen. Es zeigte sich, dass selbst menschliche Beurteiler unter diesen Bedingungen eine geringere Genauigkeit aufwiesen als menschliche Beurteiler, die direkt an den Gesprächen teilnahmen.
Diese Ergebnisse zeigen, dass sowohl Menschen als auch KIs es schwierig finden, ohne direkten Austausch zuverlässig zwischen Mensch und Maschine zu unterscheiden. Dies ist für die alltägliche Online-Kommunikation von großer Bedeutung, da wir oft das Verständnis von Menschen durch das Lesen ihrer Gespräche gewinnen.
Dies bedeutet auch, dass wir, wenn wir uns auf KIs verlassen, um Falschinformationen oder sich als Menschen ausgebende KIs im Internet zu erkennen, präzisere Werkzeuge benötigen. Denn aktuelle KI-Modelle sind in dieser Aufgabe nicht besser als Menschen.
Diese Studie vertieft nicht nur unser Verständnis von KI, sondern beleuchtet auch eine wichtige Herausforderung in der KI-Entwicklung: die Entwicklung besserer Werkzeuge zur Erkennung und Unterscheidung von KI-generierten und menschlich generierten Inhalten.
Mit dem Fortschritt der KI-Technologie wird dieses Problem immer wichtiger. Wir müssen sicherstellen, dass wir die Vorteile der KI genießen können, gleichzeitig aber unsere Datensicherheit und die Authentizität unseres Online-Umfelds schützen.