Kürzlich haben Forscher von Apple die mathematischen Schlussfolgerungsfähigkeiten großer Sprachmodelle (LLMs) eingehend untersucht und einen neuen Benchmark namens GSM-Symbolic vorgestellt.
Dieser neue Benchmark basiert auf GSM8K, das hauptsächlich zur Bewertung grundlegender mathematischer Fähigkeiten dient. Obwohl viele LLMs bei GSM8K verbesserte Leistungen zeigen, bestehen in der Wissenschaft weiterhin Zweifel an den Schlussfolgerungsfähigkeiten dieser Modelle. Man geht davon aus, dass die bestehenden Bewertungsmetriken ihre tatsächlichen Fähigkeiten möglicherweise nicht vollständig widerspiegeln. Studien haben ergeben, dass LLMs oft auf probabilistische Mustererkennung zurückgreifen, anstatt auf echtes logisches Denken, was sie sehr empfindlich gegenüber kleinen Änderungen in der Eingabe macht.
In dieser neuen Studie verwendeten die Forscher symbolische Vorlagen, um vielfältige mathematische Probleme zu generieren und so eine zuverlässigere Bewertung zu ermöglichen. Die Ergebnisse zeigen, dass die Leistung von LLMs deutlich abnimmt, wenn der Zahlenwert oder die Komplexität der Probleme zunimmt. Darüber hinaus kann selbst das Hinzufügen von Informationen, die oberflächlich mit dem Problem zusammenhängen, aber tatsächlich irrelevant sind, zu einem Leistungsabfall von bis zu 65 % führen. Diese Ergebnisse bestätigen erneut, dass LLMs beim Schlussfolgern eher auf Mustererkennung als auf formales logisches Denken zurückgreifen.
Der GSM8K-Datensatz enthält über 8000 mathematische Probleme auf Schulniveau und seine Popularität birgt einige Risiken, wie z. B. Datenverunreinigung und Leistungsschwankungen aufgrund kleiner Änderungen an den Problemen. Um diesen Herausforderungen zu begegnen, sorgt GSM-Symbolic für eine effektive Kontrolle der Problemvielfalt. Dieser Benchmark bewertete über 20 offene und geschlossene Modelle mit 5000 Beispielen aus 100 Vorlagen und liefert tiefe Einblicke in die Fähigkeiten und Grenzen von LLMs bei mathematischen Schlussfolgerungen.
Erste Experimente zeigen signifikante Leistungsunterschiede zwischen verschiedenen Modellen bei GSM-Symbolic, wobei die Gesamtgenauigkeit unter den bei GSM8K gemeldeten Leistungen liegt. Die Studie untersucht weiter den Einfluss der Änderung von Variablennamen und Zahlenwerten auf LLMs. Die Ergebnisse zeigen, dass sich Zahlenänderungen stärker auf die Leistung auswirken. Darüber hinaus beeinflusst die Komplexität der Probleme die Genauigkeit direkt, wobei komplexe Probleme zu einem deutlichen Leistungsabfall führen. Diese Ergebnisse deuten darauf hin, dass die Modelle bei der Bearbeitung mathematischer Probleme eher auf Mustererkennung als auf echte Schlussfolgerungsfähigkeiten zurückgreifen.
Diese Studie hebt die Grenzen der aktuellen GSM8K-Bewertung hervor und stellt den neuen Benchmark GSM-Symbolic vor, der darauf abzielt, die mathematischen Schlussfolgerungsfähigkeiten von LLMs zu bewerten. Insgesamt zeigen die Ergebnisse, dass LLMs bei der Bearbeitung komplexer Probleme noch ihre logischen Schlussfolgerungsfähigkeiten verbessern müssen.
Artikel: https://arxiv.org/abs/2410.05229
Wichtigste Punkte:
🧮 Forscher stellen den neuen Benchmark GSM-Symbolic zur Bewertung der mathematischen Schlussfolgerungsfähigkeiten von LLMs vor.
📉 LLMs schneiden bei komplexen mathematischen Problemen schlecht ab und verlassen sich auf Mustererkennung statt auf logisches Denken.
📊 Die Studie zeigt signifikante Leistungsunterschiede zwischen verschiedenen Modellen im neuen Benchmark und fordert eine Verbesserung der Bewertungsmethoden.