Kürzlich übertraf AlphaGeometry2, ein von Google DeepMind entwickeltes KI-System, das durchschnittliche Ergebnis von Goldmedaillengewinnern der Internationalen Mathematik-Olympiade (IMO) in der Lösung geometrischer Probleme. AlphaGeometry2 ist eine verbesserte Version des im letzten Jahr veröffentlichten AlphaGeometry-Systems von DeepMind. Die Forscher stellten in ihrer aktuellen Studie fest, dass das System 84 % der geometrischen Probleme der IMO der letzten 25 Jahre lösen kann.
Warum konzentriert sich DeepMind auf einen so hochkarätigen Mathematik-Wettbewerb für Schüler? Die Forscher sind der Meinung, dass neue Methoden zur Lösung komplexer geometrischer Probleme der Schlüssel zur Verbesserung der KI-Fähigkeiten sein könnten, insbesondere in der euklidischen Geometrie. Das Beweisen mathematischer Sätze erfordert logisches Denken und die Fähigkeit, die richtigen Lösungsschritte auszuwählen. DeepMind glaubt, dass diese Fähigkeiten zur Problemlösung für die zukünftige Entwicklung universeller KI-Modelle entscheidend sein könnten.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte: Midjourney
Diesen Sommer präsentierte DeepMind auch ein System, das AlphaGeometry2 mit AlphaProof (einem KI-Modell für formales mathematisches Schließen) kombiniert. Dieses System löste bei der Vorausscheidung der IMO 2024 vier von sechs Aufgaben. Neben geometrischen Problemen könnte diese Methode auch auf andere Bereiche der Mathematik und Naturwissenschaften ausgeweitet werden und sogar bei der Bearbeitung komplexer technischer Berechnungen helfen.
Der Kern von AlphaGeometry2 besteht aus einem Sprachmodell der Google Gemini-Familie und einer „symbolischen Engine“. Das Gemini-Modell hilft der symbolischen Engine, mithilfe mathematischer Regeln Lösungen für Probleme abzuleiten. Der Arbeitsablauf ist folgender: Das Gemini-Modell prognostiziert, welche Konstruktionen (wie Punkte, Linien, Kreise) möglicherweise hilfreich für die Lösung sind, und die symbolische Engine führt dann eine logische Schlussfolgerung basierend auf diesen Konstruktionen durch. Nach einer Reihe komplexer Suchvorgänge kann AlphaGeometry2 die Vorschläge des Gemini-Modells mit bekannten Prinzipien kombinieren, um einen Beweis zu erhalten.
Obwohl AlphaGeometry2 42 von 50 IMO-Aufgaben erfolgreich gelöst hat und damit die durchschnittliche Punktzahl der Goldmedaillengewinner übertraf, gibt es immer noch einige Einschränkungen. So kann es beispielsweise keine Probleme lösen, bei denen die Anzahl der Variablen ungleich ist, oder nichtlineare Gleichungen und Ungleichungen. Bei einigen schwierigeren Aufgaben war AlphaGeometry2 weniger erfolgreich und löste nur 20 von 29 Aufgaben.
Diese Forschung hat erneut die Diskussion darüber ausgelöst, ob KI-Systeme auf symbolischen Operationen oder eher auf Gehirn-ähnlichen neuronalen Netzen basieren sollten. AlphaGeometry2 verwendet einen hybriden Ansatz, der neuronale Netze und eine regelbasierte symbolische Engine kombiniert. Das DeepMind-Team weist darauf hin, dass große Sprachmodelle zwar teilweise Lösungen ohne externe Tools generieren können, die symbolische Engine aber im aktuellen Kontext immer noch ein wichtiges Werkzeug für mathematische Anwendungen ist.