Kürzlich haben Forscher der University of California, Los Angeles (UCLA) und Amazon die Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) eingehend analysiert. Sie differenzierten erstmals systematisch zwischen induktivem und deduktivem Schlussfolgern und untersuchten die Herausforderungen, die beide für KI-Systeme darstellen.
Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.
Induktives Schlussfolgern leitet allgemeine Regeln aus konkreten Beobachtungen ab, während deduktives Schlussfolgern allgemeine Regeln auf spezifische Fälle anwendet. Ziel der Studie war es zu verstehen, welche Schlussfolgerungsfähigkeit für große Sprachmodelle herausfordernder ist. Dafür entwickelte das Forschungsteam eine neue Methode namens „SolverLearner“. Diese Methode ermöglicht es dem Modell, eine Funktion anhand weniger Beispiele zu lernen, die Eingaben auf Ausgaben abbildet. Ein externes Programm verwendet dann diese Funktion, um Verwechslungen mit deduktivem Schlussfolgern zu vermeiden.
Die Ergebnisse zeigten, dass Sprachmodelle wie GPT-4 im induktiven Schlussfolgern sehr gut abschneiden und mit der „SolverLearner“-Methode eine Genauigkeit von fast 100 % erreichen. Beim deduktiven Schlussfolgern, insbesondere bei „kontrafaktischen“ Aufgaben, zeigten sich die Modelle jedoch weniger leistungsfähig. Beispielsweise schnitten die Modelle bei arithmetischen Aufgaben im Dezimalsystem gut ab, hatten aber Schwierigkeiten mit Berechnungen in anderen Zahlensystemen. Außerdem zeigten sie sich bei der Analyse von Sätzen mit ungewöhnlicher Wortreihenfolge oder veränderter räumlicher Ausrichtung nicht flexibel genug.
Die Forscher fassten zusammen, dass deduktives Schlussfolgern eine große Herausforderung für aktuelle LLMs darstellt. Die korrekte Anwendung gelernter Regeln hängt oft von der Häufigkeit ab, mit der diese Aufgaben während des Trainings auftraten. Obwohl Methoden wie Chain-of-Thought (Kettengedanken) die deduktive Schlussfolgerungsfähigkeit der Modelle leicht verbessern konnten, war der Effekt immer noch nicht zufriedenstellend. Es ist erwähnenswert, dass das kürzlich veröffentlichte OpenAI-Modell o1 nicht an diesem Test teilgenommen hat.
Eine weitere Studie von Forschern der Ohio State University und der Carnegie Mellon University untersuchte die logischen Schlussfolgerungsfähigkeiten von Transformer-Modellen. Sie untersuchten, ob die Modelle durch „Grokking“ die Fähigkeit zu impliziten Schlussfolgerungen erwerben können, insbesondere bei Kombinations- und Vergleichsaufgaben.
Die Ergebnisse zeigten, dass diese Modelle nach langem Training tatsächlich die Fähigkeit zu impliziten Schlussfolgerungen erwerben können, aber nur bei Vergleichsaufgaben eine Generalisierung auf unbekannte Beispiele möglich war. Die Forscher führten diesen Unterschied auf die interne Struktur der gelernten Schaltkreise zurück und schlugen Anpassungen der Transformer-Architektur vor, um eine Qualitätsverbesserung in ersten Experimenten zu erreichen.
Wichtigste Punkte:
🌟 LLMs zeigen hervorragende Leistungen im induktiven Schlussfolgern mit einer Genauigkeit von nahezu 100 %.
🧩 Deduktives Schlussfolgern bleibt eine Herausforderung, insbesondere bei der Bearbeitung kontrafaktischer Aufgaben.
🔍 Eine weitere Studie zeigt, dass Transformer-Modelle in Kombinationsaufgaben die Fähigkeit zu impliziten Schlussfolgerungen erwerben können, jedoch mit eingeschränkter Generalisierungsfähigkeit.