Neueste Forschungsergebnisse zeigen, dass künstliche Intelligenz, obwohl sie in Bereichen wie Programmierung und Content-Erstellung hervorragende Leistungen erbringt, bei der Bearbeitung komplexer historischer Fragestellungen noch erhebliche Defizite aufweist. Eine kürzlich auf der NeurIPS-Konferenz veröffentlichte Studie belegt, dass selbst die fortschrittlichsten Large Language Models (LLMs) in Tests zum historischen Wissen nur unzureichende Ergebnisse erzielen.

Das Forschungsteam entwickelte den Hist-LLM-Benchmark-Test, um drei Top-Sprachmodelle zu evaluieren: OpenAIs GPT-4, Metas Llama und Googles Gemini. Der Test basiert auf der Seshat-Datenbank der Weltgeschichte. Die Ergebnisse waren enttäuschend: Das beste Ergebnis erzielte GPT-4 Turbo mit einer Genauigkeit von lediglich 46%.

KI-Roboter schreibt Aufsätze

Bildquelle: Das Bild wurde mit KI generiert und stammt von Midjourney.

Maria del Rio-Chanona, Associate Professor am University College London, erklärt: „Diese Modelle funktionieren gut bei grundlegenden historischen Fakten, scheitern aber bei detaillierten historischen Untersuchungen auf Doktorandenniveau.“ Die Studie ergab, dass die KI häufig Details falsch wiedergibt, z. B. die fälschliche Einschätzung, ob bestimmte militärische Technologien oder stehende Armeen in bestimmten Epochen des alten Ägyptens existierten.

Die Forscher führen die schlechten Leistungen darauf zurück, dass KI-Modelle dazu neigen, aus vorherrschenden historischen Erzählungen zu extrapolieren und Schwierigkeiten haben, feinere historische Details genau zu erfassen. Darüber hinaus zeigte die Studie, dass die Modelle bei der Bearbeitung historischer Fragen aus Regionen südlich der Sahara schlechter abschnitten, was auf mögliche Verzerrungen in den Trainingsdaten hinweist.

Peter Turchin, Leiter des Komplexitätswissenschaftlichen Zentrums (CSH), erklärt, dass diese Ergebnisse zeigen, dass KI in einigen Fachgebieten menschliche Experten noch nicht ersetzen kann. Das Forschungsteam bleibt jedoch optimistisch hinsichtlich der zukünftigen Anwendung von KI in der Geschichtsforschung und arbeitet an der Verbesserung des Benchmark-Tests, um die Entwicklung besserer Modelle zu unterstützen.