L'organisation à but non lucratif Epoch AI, qui développe des benchmarks mathématiques pour l'IA, a récemment fait l'objet de controverses pour ne pas avoir révélé en temps opportun son financement par OpenAI. Le 20 décembre, l'organisation a annoncé qu'OpenAI avait financé le projet FrontierMath, un benchmark visant à tester les capacités mathématiques de l'IA. OpenAI a également utilisé ce benchmark pour présenter son produit phare d'IA, o3, prochainement disponible.

Un contractant d'Epoch AI, utilisant le pseudonyme « Meemi » sur le forum LessWrong, a déclaré que de nombreux contributeurs au projet FrontierMath n'étaient pas au courant du financement d'OpenAI avant sa publication. Il a déclaré : « La communication à ce sujet manquait de transparence. À mon avis, Epoch AI aurait dû divulguer à l'avance le financement d'OpenAI, et les contractants auraient dû savoir que leur travail pourrait être utilisé pour l'évaluation des capacités afin de pouvoir décider s'ils souhaitaient participer au développement du benchmark. »

Sur les médias sociaux, certains utilisateurs ont exprimé leurs inquiétudes, estimant que ce manque de transparence pourrait nuire à la réputation de FrontierMath en tant que benchmark objectif. Outre le financement de FrontierMath, OpenAI a également eu accès à de nombreuses questions et solutions du benchmark, ce qu'Epoch AI n'a pas révélé avant le 20 décembre.

Carina Hong, doctorante en mathématiques à l'université Stanford, a indiqué sur les réseaux sociaux qu'OpenAI avait obtenu un accès prioritaire à FrontierMath grâce à sa collaboration avec Epoch AI, ce qui a mécontenté certains contributeurs. « Six mathématiciens ayant apporté une contribution significative au benchmark FrontierMath ont confirmé qu'ils ne savaient pas qu'OpenAI aurait un accès exclusif à ce benchmark, et que les autres n'y auraient pas accès. » Hong a déclaré que la plupart des contributeurs, après avoir appris cela, ont indiqué qu'ils n'auraient probablement pas participé au projet s'ils avaient connu cet arrangement au préalable.

Tamay Besiroglu, vice-directeur d'Epoch AI, a déclaré que, bien que la transparence de l'organisation ait été insuffisante, il estimait que l'intégrité de FrontierMath n'avait pas été compromise. Il a admis qu'Epoch AI avait commis une erreur de communication en ne prévenant pas les contributeurs de la participation d'OpenAI.

Besiroglu a déclaré que, bien qu'OpenAI ait accès à FrontierMath, les deux parties ont conclu un « accord verbal » selon lequel OpenAI n'utiliserait pas l'ensemble de questions du benchmark pour entraîner son IA. Epoch AI conserve également un « ensemble de réserve séparé » pour garantir une vérification indépendante des résultats du benchmark FrontierMath.

Eillot Glazer, le principal mathématicien d'Epoch AI, a mentionné sur Reddit qu'Epoch AI n'avait pas encore vérifié indépendamment les résultats de FrontierMath o3 d'OpenAI. Il estime que les scores d'OpenAI sont crédibles, mais qu'il est impossible de les confirmer avant une évaluation indépendante.

Points clés :

💡 Epoch AI est critiqué pour ne pas avoir révélé en temps opportun le financement d'OpenAI, ce qui a mécontenté certains contributeurs.

🔍 L'intégrité du benchmark FrontierMath est remise en question, OpenAI ayant obtenu un accès prioritaire au projet.

🔒 Epoch AI reconnaît une erreur de communication, mais la collaboration avec OpenAI maintient un mécanisme d'évaluation transparent.