Communiqué du 3 avril 2025 : Selon les derniers résultats d'évaluation des capacités mathématiques des grands modèles linguistiques publiés par MathArena, Gemini-2.5-pro de Google arrive en tête avec une avance considérable, affichant des performances remarquables dans des compétitions mathématiques de haut niveau non biaisées.
Résultats révolutionnaires
Gemini-2.5-pro a obtenu un taux de précision de 24,40 % lors des évaluations rigoureuses de la plateforme MathArena. Ce résultat, non seulement le meilleur, contraste fortement avec les 4,76 % de DeepSeek-R1, le deuxième, représentant un avantage impressionnant de cinq fois. Ce résultat révolutionnaire témoigne d'un progrès qualitatif dans les capacités de raisonnement mathématique avancé de Gemini-2.5-pro.
Performances exceptionnelles dans plusieurs compétitions
Il est particulièrement intéressant de noter que Gemini-2.5-pro a obtenu un score remarquable de 93 % au concours « AIME 2025 I », une compétition mathématique reconnue pour sa difficulté. Simultanément, il a atteint 50 % au « USAMO 2025 », prouvant ainsi sa capacité à résoudre des problèmes mathématiques extrêmement complexes.
Importance technique
La particularité des évaluations de MathArena réside dans leur rigueur et leur impartialité. Seuls les sujets de concours mathématiques publiés après la sortie du modèle sont utilisés pour les tests, garantissant que le modèle ne puisse pas tirer parti de données de pré-entraînement. Dans des conditions aussi strictes, le taux de réussite élevé de Gemini-2.5-pro reflète une percée majeure de Google dans le domaine du raisonnement mathématique des grands modèles.
Impact sur le secteur
Les performances exceptionnelles de Gemini-2.5-pro démontrent non seulement l'énorme potentiel des grands modèles linguistiques dans la pensée mathématique avancée, mais ouvrent également de nouvelles perspectives pour l'éducation assistée par l'IA, la recherche scientifique et la résolution de problèmes complexes. Ce résultat devrait également stimuler la compétition et l'innovation dans le secteur de l'IA en matière de capacités de raisonnement et d'applications dans des domaines spécialisés.
En comparaison avec d'autres modèles tels que Claude-3.7-Sonnet (Think) avec 3,65 % et o1-pro (high) avec 2,83 % de précision, l'avantage de Gemini-2.5-pro est encore plus marqué, suggérant que le développement des capacités mathématiques des grands modèles linguistiques pourrait être entré dans une nouvelle phase.
Source des données : https://matharena.ai/