KI-Benchmark-Organisation wegen verspäteter Offenlegung von OpenAI-Mitteln kritisiert

Die gemeinnützige Organisation Epoch AI, die an der Entwicklung von KI-Mathematik-Benchmarks arbeitet, geriet in die Kritik, weil sie die erhaltene Finanzierung durch OpenAI nicht rechtzeitig offengelegt hatte. Am 20. Dezember gab die Organisation bekannt, dass OpenAI das Projekt FrontierMath finanziert hat, einen Benchmark zur Überprüfung der mathematischen Fähigkeiten von KI. OpenAI nutzte diesen Benchmark auch, um sein bald erscheinendes Flaggschiff-KI-Produkt o3 zu präsentieren.

Ein Auftragnehmer von Epoch AI, der im Forum LessWrong unter dem Pseudonym „Meemi“ schreibt, erklärte, dass viele an FrontierMath beteiligte Mitwirkende nichts von der OpenAI-Finanzierung wussten, bevor diese öffentlich gemacht wurde. Er bemerkte: „Die Kommunikation dazu war undurchsichtig. Meiner Meinung nach hätte Epoch AI die Finanzierung durch OpenAI im Vorfeld offenlegen sollen, und die Auftragnehmer hätten wissen müssen, dass ihre Arbeit möglicherweise zur Leistungsbewertung verwendet werden könnte, um zu entscheiden, ob sie an der Entwicklung des Benchmarks teilnehmen wollen.“

In den sozialen Medien äußerten einige Nutzer Bedenken, dass dieses Geheimhaltungsverhalten den Ruf von FrontierMath als objektiver Benchmark schädigen könnte. Neben der Finanzierung von FrontierMath hatte OpenAI auch Einblick in viele Fragen und Lösungen des Benchmarks, was Epoch AI bis zum 20. Dezember nicht offengelegt hatte.

Carina Hong, Mathematik-Doktorandin an der Stanford University, wies in den sozialen Medien darauf hin, dass OpenAI durch die Zusammenarbeit mit Epoch AI bevorzugten Zugang zu FrontierMath erhielt, was bei einigen Mitwirkenden Unmut hervorrief. „Sechs Mathematiker, die maßgeblich zum FrontierMath-Benchmark beigetragen haben, bestätigten, dass sie nicht wussten, dass OpenAI den Benchmark exklusiv nutzen und andere keinen Zugriff darauf haben würden.“ Hong erklärte, dass die meisten Mitwirkenden nach Bekanntwerden dieser Tatsache angaben, sie hätten wahrscheinlich nicht an dem Projekt teilgenommen, wenn sie dies vorher gewusst hätten.

Tamay Besiroglu, stellvertretender Leiter von Epoch AI, erklärte dazu, dass die Organisation zwar Mängel in der Transparenz aufwies, er aber glaube, dass die Integrität von FrontierMath nicht beeinträchtigt wurde. Er räumte ein, dass Epoch AI in der Kommunikation Fehler gemacht und die Mitwirkenden nicht im Vorfeld über die Beteiligung von OpenAI informiert hatte.

Besiroglu erklärte, dass OpenAI zwar Zugriff auf FrontierMath habe, es aber eine „mündliche Vereinbarung“ gebe, dass OpenAI den Fragenkatalog des Benchmarks nicht zum Trainieren seiner KI verwenden werde. Epoch AI behält auch einen „separaten Reserve-Datensatz“ vor, um eine unabhängige Überprüfung der Ergebnisse des FrontierMath-Benchmarks zu gewährleisten.

Eillot Glazer, Chefmathematiker von Epoch AI, erwähnte auf Reddit, dass Epoch AI die Ergebnisse von OpenAI für FrontierMath o3 noch nicht unabhängig verifiziert habe. Er halte die Punktzahl von OpenAI für glaubwürdig, könne sie aber vor einer unabhängigen Bewertung nicht bestätigen.

Wichtigste Punkte:
💡 Epoch AI wird wegen der verspäteten Offenlegung der OpenAI-Finanzierung kritisiert, was bei einigen Mitwirkenden Unmut hervorruft.
🔍 Die Integrität des FrontierMath-Benchmarks wird in Frage gestellt, da OpenAI bevorzugten Zugang zu dem Projekt erhielt.
🔒 Epoch AI räumt Kommunikationsfehler ein, aber die Zusammenarbeit mit OpenAI soll durch transparente Bewertungsmechanismen gewährleistet bleiben.

KI-Nachrichten und -Informationen

KI-Benchmark-Organisation wegen verspäteter Offenlegung von OpenAI-Mitteln kritisiert

AIbase基地

Empfohlene verwandte KI-Nachrichten

Quora Poe bietet benutzerdefinierte KI-App-Funktion für einfache Erstellung personalisierter Apps

Upgrade im Wettbewerb mit DeepSeek und Claude! OpenAIs "Deep Research"-Funktion für alle zahlenden ChatGPT-Nutzer verfügbar

OpenAIs o3-Modell gewinnt Goldmedaille bei der Internationalen Informatik-Olympiade 2024

OpenAI veröffentlicht detaillierten Inferenzprozess von o3-mini als Antwort auf die DeepSeek-Herausforderung