Recentemente, a Epoch AI, uma organização sem fins lucrativos que desenvolve benchmarks de matemática para IA, gerou controvérsia por não divulgar a tempo o financiamento recebido da OpenAI. Em 20 de dezembro, a organização anunciou que a OpenAI financiou o projeto FrontierMath, um benchmark projetado para testar as habilidades matemáticas da IA. A OpenAI também usou este benchmark para demonstrar seu próximo produto de IA principal, o o3.

Um contratado da Epoch AI, usando o pseudônimo "Meemi" no fórum LessWrong, afirmou que muitos contribuintes para o projeto FrontierMath não sabiam do financiamento da OpenAI antes de sua divulgação. Ele mencionou: "Houve falta de transparência na comunicação sobre isso. Na minha opinião, a Epoch AI deveria ter divulgado antecipadamente a fonte de financiamento da OpenAI, e os contratados deveriam ter clareza de que seu trabalho poderia ser usado para avaliação de capacidades antes de decidirem se participam ou não do desenvolvimento do benchmark."

Nas redes sociais, alguns usuários expressaram preocupações, argumentando que esse sigilo pode prejudicar a reputação do FrontierMath como um benchmark objetivo. Além de financiar o FrontierMath, a OpenAI teve visibilidade sobre muitas das questões e soluções do benchmark, fato que a Epoch AI não divulgou antes de 20 de dezembro.

Carina Hong, doutoranda em matemática da Universidade de Stanford, apontou em uma plataforma de mídia social que a OpenAI obteve acesso prioritário ao FrontierMath devido à parceria com a Epoch AI, o que deixou alguns contribuintes insatisfeitos. "Seis matemáticos que contribuíram significativamente para o benchmark FrontierMath confirmaram que não sabiam que a OpenAI teria acesso exclusivo ao benchmark, e que outros não poderiam acessá-lo." Hong disse que a maioria dos contribuintes, ao saber disso, afirmou que provavelmente não teria participado do projeto se soubesse dessa condição.

Tamay Besiroglu, vice-diretor da Epoch AI, disse que, embora a organização tenha falhado em termos de transparência, ele acredita que a integridade do FrontierMath não foi afetada. Ele admitiu que a Epoch AI cometeu um erro de comunicação ao não informar os contribuintes antecipadamente sobre a participação da OpenAI.

Besiroglu disse que, embora a OpenAI tenha acesso ao FrontierMath, existe um "acordo verbal" de que a OpenAI não usará o conjunto de problemas do benchmark para treinar sua IA. A Epoch AI também mantém um "conjunto reservado separado" para garantir a verificação independente dos resultados do benchmark FrontierMath.

Eillot Glazer, principal matemático da Epoch AI, mencionou no Reddit que a Epoch AI ainda não verificou independentemente os resultados do FrontierMath o3 da OpenAI. Ele acredita que a pontuação da OpenAI é confiável, mas não pode ser confirmada até que uma avaliação independente seja concluída.

Destaques:

💡 A Epoch AI foi criticada por não divulgar a tempo o financiamento da OpenAI, causando insatisfação entre alguns contribuintes.   

🔍 A integridade do benchmark FrontierMath foi questionada, com a OpenAI obtendo acesso prioritário ao projeto.   

🔒 A Epoch AI admitiu um erro de comunicação, mas a parceria com a OpenAI mantém um mecanismo de avaliação transparente.