Kürzlich haben das ByteDance Doubao-Großmodellteam und die M-A-P Open-Source-Community SuperGPQA veröffentlicht, einen Benchmark für das Wissensschließen, der 285 Studiengänge auf Graduiertenniveau mit 26.529 Fachfragen abdeckt.

QQ20250304-140137.pngQQ20250304-140137.png

Dieser Datensatz umfasst nicht nur gängige Fächer wie Mathematik und Physik, sondern integriert erstmalig auch Nischenfächer wie Leichtindustrie, Landwirtschaft und Dienstleistungsforschung in das Bewertungssystem und schließt damit eine Lücke bei bestehenden Benchmarks im Bereich des Nischenwissens. SuperGPQA wurde bereits verwendet, um die Leistungsdifferenz zwischen Open-Source- und Closed-Source-Modellen aufzuzeigen und ist zu einem wichtigen Werkzeug für die KI-Entwicklung geworden.

Traditionelle Benchmarks wie MMLU und GPQA decken weniger als 50 Fächer ab, der Anteil an Nischenfächern liegt unter 5 %. Aufgrund der einheitlichen Datenquelle (z. B. Wikipedia) und der unzuverlässigen Crowd-Annotationen ist die Messung der Inferenzfähigkeit von Modellen in komplexen Szenarien schwierig. SuperGPQA wurde mithilfe eines Experten-LLM-Kooperationsmechanismus aus autorisierten Quellen erstellt und benötigte ein halbes Jahr Entwicklungszeit. Die Fragen bieten durchschnittlich 9,67 Optionen, 42,33 % erfordern mathematische Berechnungen oder formale Inferenz und zeichnen sich durch Breite und Tiefe aus. Experimente zeigen, dass das beste Modell, DeepSeek-R1, eine Genauigkeit von nur 61,82 % erreicht, was darauf hindeutet, dass große Sprachmodelle in verschiedenen Wissensbereichen noch Verbesserungspotenzial haben.

QQ20250304-140147.png

SuperGPQA verwendet einen dreistufigen Prozess zur Qualitätsverbesserung: Experten filtern die ursprünglichen Fragen, standardisierte Transkription und mehrstufige Qualitätsprüfung (Regelprüfung, LLM-Erkennung, Expertenprüfung). Die Bewertungsergebnisse zeigen, dass die Instruktion Feinabstimmung die Leistung deutlich verbessert, z. B. erzielt DeepSeek-V3 eine höhere Punktzahl als die Basisversion, aber Open-Source-Modelle bleiben bei schwierigen Fragen hinter Closed-Source-Lösungen zurück.

论文链接:https://arxiv.org/pdf/2502.14739

Datenlink:https://huggingface.co/datasets/m-a-p/SuperGPQA

Code-Link:https://github.com/SuperGPQA/SuperGPQA