Eine kürzlich von der Österreichischen Forschungsstelle für komplexe Systeme (CSH) geleitete Studie zeigt, dass große Sprachmodelle (LLMs), obwohl sie in vielen Aufgaben hervorragende Leistungen erbringen, bei komplexen historischen Fragen Schwächen aufweisen. Das Forschungsteam testete drei Top-Modelle: GPT-4 von OpenAI, Llama von Meta und Gemini von Google. Die Ergebnisse waren enttäuschend.
Bildquelle: KI-generiertes Bild, Lizenziert durch Midjourney
Um die historischen Kenntnisse dieser Modelle zu bewerten, entwickelten die Forscher einen Benchmark namens „Hist-LLM“. Dieses Tool basiert auf der Seshat-Datenbank der Weltgeschichte und dient der Überprüfung der Genauigkeit der KI-Antworten auf historische Fragen. Die Ergebnisse wurden auf der renommierten KI-Konferenz NeurIPS vorgestellt und zeigen, dass das beste Modell, GPT-4Turbo, eine Genauigkeit von nur 46% erreichte. Dies ist nur unwesentlich besser als reines Raten.
Maria del Rio-Chanona, Associate Professorin für Informatik am University College London, erklärt: „So beeindruckend große Sprachmodelle auch sind, ihr Verständnis von komplexem historischen Wissen ist noch unzureichend. Sie bewältigen einfache Fakten gut, scheitern aber bei komplexeren historischen Fragen.“ Beispielsweise antwortete GPT-4Turbo fälschlicherweise mit „ja“ auf die Frage, ob es in einer bestimmten Zeit des alten Ägypten Schuppenpanzer gab, obwohl diese Technologie erst 1500 Jahre später aufkam. Auch die Frage nach einer stehenden Berufsarmee im alten Ägypten beantwortete GPT-4 falsch mit „ja“, obwohl dies nicht der Fall war.
Die Studie zeigt auch, dass die Modelle bei Fragen zu bestimmten Regionen (z. B. Afrika südlich der Sahara) schlechter abschneiden, was auf mögliche Verzerrungen in den Trainingsdaten hindeutet. Peter Turchin, der Leiter der Studie, betont, dass diese Ergebnisse zeigen, dass LLMs in einigen Bereichen den Menschen noch nicht ersetzen können.
Wichtigste Punkte:
- 📉 GPT-4Turbo erreicht bei komplexen historischen Fragen nur eine Genauigkeit von 46%.
- 📚 Die Studie zeigt, dass große Sprachmodelle komplexes historisches Wissen noch nicht ausreichend verstehen.
- 🌍 Das Forschungsteam hofft, durch die Verbesserung des Testwerkzeugs das Anwendungspotenzial der Modelle in der Geschichtsforschung zu steigern.