Recientemente, el equipo de modelos de lenguaje grande Doubao de ByteDance, en colaboración con la comunidad de código abierto M-A-P, ha publicado SuperGPQA, un conjunto de pruebas de razonamiento del conocimiento que abarca 285 disciplinas de posgrado y contiene 26.529 preguntas profesionales.
Este conjunto de datos no solo abarca disciplinas principales como matemáticas y física, sino que también incluye por primera vez disciplinas de nicho como la industria ligera, la agricultura y las ciencias de los servicios en el sistema de evaluación, lo que llena un vacío en los conjuntos de pruebas existentes en el campo del conocimiento de nicho. SuperGPQA se ha utilizado para revelar las diferencias de rendimiento entre los modelos de código abierto y los modelos propietarios, convirtiéndose en una herramienta importante para el desarrollo de la IA.
Los conjuntos de pruebas tradicionales, como MMLU y GPQA, cubren menos de 50 disciplinas, y las disciplinas de nicho representan menos del 5%. Además, debido a la única fuente de datos (como Wikipedia) y a la falta de fiabilidad de las anotaciones de crowdsourcing, es difícil medir la capacidad de razonamiento de los modelos en escenarios complejos. SuperGPQA, construido a través de un mecanismo de colaboración experto-LLM, selecciona preguntas de fuentes autorizadas y ha tardado medio año en construirse. Sus preguntas ofrecen un promedio de 9,67 opciones, y el 42,33% requiere cálculos matemáticos o razonamiento formal, combinando amplitud y profundidad. Los experimentos muestran que la precisión del modelo óptimo DeepSeek-R1 es solo del 61,82%, lo que indica que los modelos de lenguaje grande actuales aún tienen margen de mejora en diversos campos del conocimiento.
SuperGPQA utiliza un proceso de tres etapas para mejorar la calidad: selección de preguntas originales por expertos, transcripción estandarizada y verificación de calidad multinivel (filtrado de reglas, detección LLM y revisión de expertos). Los resultados de la evaluación muestran que el ajuste de instrucciones mejora significativamente el rendimiento, como DeepSeek-V3 que supera la versión básica, pero los modelos de código abierto siguen estando por detrás de las soluciones propietarias en preguntas difíciles.
Enlace al artículo:https://arxiv.org/pdf/2502.14739
Enlace a los datos:https://huggingface.co/datasets/m-a-p/SuperGPQA
Enlace al código:https://github.com/SuperGPQA/SuperGPQA