Nachdem OpenAIs GPT-4 in traditionellen Mathematiktests immer wieder hervorragende Leistungen gezeigt hat, haben Forscherteams der Peking-Universität und von Alibaba einen neuen Bewertungsmaßstab namens Omni-MATH entwickelt. Dieser soll die Fähigkeit großer Sprachmodelle zur Problemlösung auf dem Niveau mathematischer Olympiaden bewerten. Dies bietet nicht nur neue Standards für die Beurteilung mathematischer Fähigkeiten von KI, sondern eröffnet auch neue Wege, um das Potenzial von KI im Bereich der höheren Mathematik zu erforschen.

image.png

Das einzigartige Design von Omni-MATH

Die Omni-MATH-Testdatenbank umfasst 4428 Aufgaben auf Wettbewerbsniveau, die 33 mathematische Teilgebiete abdecken und in 10 Schwierigkeitsstufen unterteilt sind. Ihre Merkmale sind:

Hohe Zuverlässigkeit: Alle Aufgaben stammen aus verschiedenen Mathematik-Wettbewerben und -Foren, die Lösungen wurden manuell verifiziert.

Umfassende Abdeckung: Von der Vorbereitungsebene für Mathematikolympiaden (T4) bis hin zu Top-Wettbewerben wie IMO, IMC und Putnam (T0).

Vielfalt: Durch die Bewertung mit GPT-4 und anderen Bewertungsmodellen wurde die Vielfalt der Lösungen optimiert.

In der aktuellen Rangliste zeigen sich neben der Vollversion von GPT-4 folgende Modelle besonders hervorzuheben:

GPT-4-mini: erzielte im Durchschnitt etwa 8% höhere Punktzahlen als GPT-4-preview

Qwen2-MATH-72b: übertraf die Ergebnisse von GPT-4-turbo

Diese Ergebnisse zeigen, dass selbst kleinere Modelle in bestimmten Bereichen außergewöhnliche Leistungen erbringen können.

Tiefe und Breite des Bewertungssystems

Das Design von Omni-MATH berücksichtigt die Auswahlverfahren und Schwierigkeitsstufen internationaler Mathematik-Wettbewerbe:

Orientierung an den Auswahlsystemen für Mathematikolympiaden in Großbritannien und den USA

Abdeckung verschiedener mathematischer Gebiete, von Zahlentheorie und Algebra bis hin zur Geometrie

Datenquellen umfassen Aufgaben, Lösungen und Forenbeiträge von bekannten Mathematik-Websites

Innovative Bewertungsmethoden

Das Forschungsteam hat den Open-Source-Antwortprüfer Omni-Judge entwickelt. Dieser nutzt ein feinabgestimmtes Llama3-Instruct-Modell, um die Übereinstimmung der Modell-Ausgabe mit den Standardantworten schnell zu überprüfen. Diese Methode gewährleistet eine Übereinstimmung von 95% und bietet gleichzeitig eine einfache Lösung für die Bewertung komplexer mathematischer Probleme.

Omni-MATH stellt nicht nur eine neue Herausforderung für die mathematischen Fähigkeiten von KI dar, sondern bietet auch ein wichtiges Bewertungswerkzeug für die zukünftige Anwendung und Entwicklung von KI im Bereich der höheren Mathematik. Mit dem Fortschritt der KI-Technologie werden wir vielleicht schon bald die erstaunlichen Leistungen von KI bei Mathematikolympiaden erleben.

Projekt-Adresse: https://github.com/KbsdJames/Omni-MATH/