Recientemente, la organización sin fines de lucro Epoch AI, dedicada al desarrollo de benchmarks matemáticos para IA, ha generado controversia por no revelar a tiempo su financiación por parte de OpenAI. El 20 de diciembre, la organización anunció que OpenAI financió el proyecto FrontierMath, un benchmark diseñado para evaluar las capacidades matemáticas de la IA. OpenAI también utilizó este benchmark para mostrar su próximo producto estrella de IA, o3.

Un contratista de Epoch AI, que utiliza el pseudónimo "Meemi" en el foro LessWrong, afirmó que muchos contribuyentes al proyecto FrontierMath desconocían la financiación de OpenAI antes de que se hiciera pública. Comentó: "La comunicación sobre este tema careció de transparencia. En mi opinión, Epoch AI debería haber revelado previamente la financiación de OpenAI, y los contratistas deberían haber sabido que su trabajo podría utilizarse para la evaluación de capacidades antes de decidir si participaban en el desarrollo del benchmark".

En las redes sociales, algunos usuarios expresaron su preocupación, argumentando que este secretismo podría perjudicar la reputación de FrontierMath como benchmark objetivo. Además de financiar FrontierMath, OpenAI tuvo visibilidad sobre muchos de los problemas y soluciones del benchmark, algo que Epoch AI no reveló antes del 20 de diciembre.

Carina Hong, estudiante de doctorado en matemáticas de la Universidad de Stanford, señaló en las redes sociales que OpenAI obtuvo acceso prioritario a FrontierMath gracias a su colaboración con Epoch AI, lo que generó descontento entre algunos contribuyentes. "Seis matemáticos que contribuyeron significativamente al benchmark FrontierMath confirmaron que desconocían que OpenAI tendría acceso exclusivo al benchmark y que otros no podrían acceder a él". Hong afirmó que la mayoría de los contribuyentes, al enterarse de esto, dijeron que probablemente no habrían participado en el proyecto si hubieran sabido de este acuerdo.

Tamay Besiroglu, subdirector de Epoch AI, declaró que, si bien la organización tuvo una falta de transparencia, considera que la integridad de FrontierMath no se vio afectada. Reconoció que Epoch AI cometió un error de comunicación al no informar previamente a los contribuyentes sobre la participación de OpenAI.

Besiroglu afirmó que, aunque OpenAI tiene acceso a FrontierMath, existe un "acuerdo verbal" por el cual OpenAI no utilizará el conjunto de problemas del benchmark para entrenar su IA. Epoch AI también mantiene un "conjunto de reserva separado" para garantizar la validación independiente de los resultados del benchmark FrontierMath.

Eillot Glazer, matemático jefe de Epoch AI, mencionó en Reddit que Epoch AI aún no ha validado independientemente los resultados de FrontierMath o3 de OpenAI. Considera que la puntuación de OpenAI es creíble, pero que no se puede confirmar hasta que se complete una evaluación independiente.

Puntos clave:

💡 Epoch AI ha sido criticada por no revelar a tiempo la financiación de OpenAI, lo que ha generado descontento entre algunos contribuyentes.

🔍 Se cuestiona la integridad del benchmark FrontierMath, ya que OpenAI obtuvo acceso prioritario al proyecto.

🔒 Epoch AI admite un error de comunicación, pero la colaboración con OpenAI mantiene un mecanismo de evaluación transparente.