Kürzlich haben Forscher des Mila-Instituts, von Google DeepMind und den Microsoft Research die Schlussfolgerungsfähigkeiten von KI-Sprachmodellen eingehend untersucht und festgestellt, dass kleinere und günstigere Modelle bei der Lösung komplexer Probleme erhebliche Schwächen aufweisen.
Die Studie konzentrierte sich auf einen Test namens „kombinierter GSM“, der die Leistung dieser Modelle bei der Lösung verketteter grundlegender mathematischer Probleme bewertet.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.
Die Forscher kombinierten zwei Fragen aus dem GSM8K-Datensatz und verwendeten die Antwort auf die erste Frage als Variable für die zweite Frage. Die Ergebnisse zeigten, dass die meisten Modelle bei diesen komplexen Schlussfolgerungsaufgaben weit unter den Erwartungen blieben, besonders deutlich bei kleineren Modellen. Obwohl kleinere Modelle bei Standard-Mathetests wie GSM8K ähnliche Punktzahlen wie große Modelle erzielten, vergrößerte sich bei dem neuen kombinierten Test die logische Lücke um das 2- bis 12-fache.
Am Beispiel von GPT-4o mini zeigte sich, dass dessen Leistung bei dem neuen Test weit hinter GPT-4o zurückblieb, obwohl die Ergebnisse bei den ursprünglichen Benchmark-Tests nahezu identisch waren. Ähnliche Ergebnisse zeigten sich bei anderen Modellen wie Gemini und LLAMA3. Die Studie zeigt, dass kleinere Modelle zwar oberflächliche Muster in gängigen Aufgaben erkennen können, aber Schwierigkeiten haben, dieses Wissen in neuen Kontexten anzuwenden.
Die Studie ergab auch, dass selbst kleinere Modelle, die speziell für Mathematik entwickelt wurden, Mängel aufweisen. So erzielte Qwen2.5-Math-7B-IT beispielsweise über 80 % der Punkte bei schwierigen Mathematikaufgaben der Oberstufe, aber weniger als 60 % bei verketteten Grundrechenaufgaben. Bei kleineren Modellen führte die Methode der Instruktionsoptimierung zwar zu einer deutlichen Leistungssteigerung beim ursprünglichen GSM8K-Test, die Verbesserung beim kombinierten GSM-Test war jedoch vernachlässigbar.
Diese Studie ist nicht ganz aktuell, da das kürzlich von OpenAI veröffentlichte logikoptimierte Modell o1 nicht in den Test einbezogen wurde. Obwohl es Hinweise darauf gibt, dass o1 eine deutlich verbesserte Planungsfähigkeit aufweist, zeigt die Studie, dass Menschen beim Lösen mathematischer Probleme immer noch schneller und eleganter sind. Auch das Google Gemini-Modell zeigte nach einem jüngsten Update verbesserte mathematische Fähigkeiten.
Die Forscher betonen, dass bestehende Bewertungsmethoden systematische Unterschiede dieser Modelle verschleiern und so zu einer Überschätzung der Fähigkeiten kleinerer Modelle führen können. Sie fordern eine Neubewertung der Entwicklungsstrategie für kostengünstige KI-Systeme und hinterfragen die grundlegenden Einschränkungen dieser Modelle in Bezug auf komplexes Schlussfolgern und Generalisierung. Diese Studie liefert tiefere Einblicke in die Grenzen von KI-Systemen.
Wichtigste Punkte:
📉 Kleine KI-Sprachmodelle schneiden bei der Lösung verketteter mathematischer Probleme schlecht ab, die logische Lücke beträgt bis zum 12-fachen.
🧮 Selbst kleinere, speziell für Mathematik entwickelte Modelle erzielen bei Grundaufgaben eine Genauigkeit von unter 60 %.
🔍 Bestehende Bewertungsmethoden überschätzen möglicherweise die Fähigkeiten kleinerer Modelle. Ihre Entwicklungsstrategie muss neu bewertet werden.