Meldung vom 3. April 2025: Laut den neuesten Ergebnissen der von MathArena veröffentlichten Leistungsbewertung großer Sprachmodelle im Bereich Mathematik liegt Googles Gemini-2.5-pro mit absolutem Vorsprung an der Spitze und zeigt in anspruchsvollen, unverfälschten Mathematik-Wettbewerben eine beeindruckende Leistung.
Bahnbrechende Ergebnisse
Gemini-2.5-pro erzielte bei der strengen Bewertung auf der MathArena-Plattform eine Genauigkeit von 24,40 %. Dieses Ergebnis belegt nicht nur den ersten Platz, sondern steht auch in starkem Kontrast zu den 4,76 % von DeepSeek-R1 auf dem zweiten Platz – ein um das Fünffache höherer Vorsprung. Dieser bahnbrechende Erfolg zeigt einen qualitativen Sprung in der Fähigkeit von Gemini-2.5-pro zu komplexen mathematischen Schlussfolgerungen.
Herausragende Leistungen in mehreren Wettbewerben
Besonders hervorzuheben ist die erstaunliche Leistung von Gemini-2.5-pro im Wettbewerb „AIME 2025 I“ mit 93 % – einem anerkannten Wettbewerb mit sehr hohem Schwierigkeitsgrad. Auch beim „USAMO 2025“ erreichte es 50 %, was seine Fähigkeit zur Lösung extrem anspruchsvoller mathematischer Probleme unter Beweis stellt.
Technische Bedeutung
Die Besonderheit der MathArena-Bewertung liegt in ihrer Strenge und Objektivität. Es werden ausschließlich nach der Veröffentlichung des Modells gestellte Aufgaben aus Mathematik-Wettbewerben verwendet, um sicherzustellen, dass das Modell keinen Vorteil durch vorab trainierte Daten erhält. Unter diesen strengen Bedingungen eine so hohe Erfolgsrate zu erzielen, spiegelt einen bedeutenden Durchbruch von Google im Bereich des mathematischen Schlussfolgerns durch große Sprachmodelle wider.
Auswirkungen auf die Branche
Die herausragende Leistung von Gemini-2.5-pro beweist nicht nur das enorme Potenzial großer Sprachmodelle im Bereich des hochentwickelten mathematischen Denkens, sondern eröffnet auch neue Möglichkeiten für KI-gestützte Bildung, Forschung und die Lösung komplexer Probleme. Dieses Ergebnis wird den Wettbewerb und die Innovation im Bereich der KI-Schlussfolgerungsfähigkeiten und der Anwendung in Fachgebieten weiter vorantreiben.
Im Vergleich zu anderen Modellen wie Claude-3.7-Sonnet (Think) mit 3,65 % und o1-pro (high) mit 2,83 % Genauigkeit, ist der Vorsprung von Gemini-2.5-pro noch deutlicher und könnte darauf hindeuten, dass die Entwicklung der mathematischen Fähigkeiten großer Sprachmodelle eine neue Phase erreicht hat.
Datenquelle: https://matharena.ai/