Des employés d'OpenAI remettent en question xAI : les résultats des tests de référence de Grok 3 sont trompeurs

Récemment, une controverse a éclaté au sujet des tests de référence pour l'intelligence artificielle. Un employé d'OpenAI a accusé xAI, la société d'IA fondée par Elon Musk, d'avoir publié des résultats trompeurs pour son test de référence Grok3, tandis que le cofondateur d'xAI, Igor Babuschkin, a maintenu que l'entreprise n'avait rien fait de mal.

L'incident a commencé lorsque xAI a publié sur son blog un graphique montrant les performances de Grok3 sur le test AIME2025. L'AIME2025 est un ensemble de problèmes de mathématiques complexes issus d'un récent concours de mathématiques. Bien que certains experts aient exprimé des doutes sur la validité de l'AIME comme référence pour l'IA, il reste largement utilisé pour évaluer les capacités mathématiques des modèles.

Le graphique d'xAI montrait que deux variantes de Grok3 — Grok3Reasoning Beta et Grok3mini Reasoning — surpassaient le modèle actuel d'OpenAI, o3-mini-high, sur l'AIME2025. Cependant, un employé d'OpenAI a rapidement fait remarquer que le graphique d'xAI n'incluait pas le score de o3-mini-high sur l'AIME2025 calculé avec « cons@64 ».

Alors, qu'est-ce que cons@64 ? C'est l'abréviation de « consensus@64 ». En termes simples, cela donne au modèle 64 tentatives pour répondre à chaque question et utilise la réponse la plus fréquente comme réponse finale. On peut imaginer que le mécanisme de notation cons@64 améliorera considérablement le score de référence du modèle. Par conséquent, omettre cette donnée dans le graphique peut donner l'impression qu'un modèle surpasse un autre, alors que ce n'est pas le cas.

Les scores « @1 » de Grok3Reasoning Beta et Grok3mini Reasoning sur l'AIME2025, c'est-à-dire les scores obtenus lors de la première tentative du modèle, étaient en fait inférieurs à ceux de o3-mini-high. Les performances de Grok3Reasoning Beta étaient également légèrement inférieures à celles du modèle o1 d'OpenAI. Malgré cela, xAI a quand même présenté Grok3 comme « l'IA la plus intelligente au monde ».

Babuschkin a répondu sur les réseaux sociaux qu'OpenAI avait également publié des graphiques de référence trompeurs par le passé, principalement en comparant les performances de ses propres modèles. Un expert indépendant a ensuite compilé les performances des différents modèles dans un graphique plus « précis », ce qui a suscité un débat plus large.

De plus, le chercheur en IA Nathan Lambert a souligné qu'un indicateur plus important restait flou : le coût de calcul (et financier) nécessaire pour que les modèles obtiennent leurs meilleurs scores. Cela montre que la plupart des tests de référence actuels de l'IA fournissent des informations limitées sur les limites et les avantages des modèles.

Points clés :
🔍 La controverse entre xAI et OpenAI concernant les résultats des tests de référence de Grok3 a suscité un intérêt considérable.
📊 Le graphique d'xAI n'incluait pas l'indicateur de performance clé « cons@64 » des modèles OpenAI, ce qui a pu induire en erreur.
💰 Le coût de calcul et financier des performances des modèles d'IA reste une énigme.

Actualités IA

Des employés d'OpenAI remettent en question xAI : les résultats des tests de référence de Grok 3 sont trompeurs

AIbase基地