El 5 de diciembre, el equipo de modelos grandes de ByteDance lanzó el nuevo estándar de evaluación para modelos de código grande: FullStack Bench. Este estándar abarca más de 11 escenarios reales, admite 16 lenguajes de programación e incluye 3374 problemas. En comparación con los estándares de evaluación anteriores, este nuevo estándar evalúa con mayor precisión la capacidad de desarrollo de código de los modelos grandes en un rango más amplio de áreas de programación, impulsando así la optimización de los modelos en tareas de programación del mundo real.

Los estándares de evaluación de código predominantes actuales, como HumanEval y MBPP, suelen centrarse en problemas de programación básicos y avanzados, mientras que DS-1000 se centra en tareas de análisis de datos y aprendizaje automático, y solo admite Python. xCodeEval se centra en la programación avanzada y las matemáticas, presentando limitaciones significativas en el ámbito de aplicación y la cobertura de idiomas. En comparación, FullStack Bench presenta una mejora significativa en la cobertura de datos, abarcando más de 11 áreas de aplicación y escenarios de programación más complejos y diversos.

QQ20241205-144253.png

El conjunto de datos de FullStack Bench proviene de Stack Overflow, la plataforma de preguntas y respuestas de programación más grande del mundo. El equipo de investigación seleccionó el 88,1% de las áreas de aplicación de 500.000 preguntas, garantizando la amplitud y la solidez del conjunto de datos. Cada problema incluye una descripción detallada del problema, una solución de referencia y casos de prueba unitarios para asegurar la precisión de la evaluación. El equipo también realizó una evaluación cruzada de la calidad de los datos mediante la revisión de IA y humana, mejorando aún más la fiabilidad de los datos.

Para facilitar a los desarrolladores el uso de este conjunto de datos, el equipo de ByteDance también ha lanzado una herramienta de código sandbox de código abierto: SandboxFusion, que admite la ejecución eficiente de tareas de programación multilenguaje. SandboxFusion es compatible con más de 10 conjuntos de datos de evaluación de código ampliamente utilizados, admite 23 lenguajes de programación y puede ayudar a los desarrolladores a realizar pruebas de modelos grandes en diferentes entornos.

QQ20241205-144446.png

Además, el equipo de modelos grandes de ByteDance presentó por primera vez su propio modelo de código grande, Doubao-Coder, y realizó una evaluación de la capacidad de programación de más de 20 modelos de código grandes de todo el mundo. El continuo progreso de ByteDance en el campo de la programación de IA, especialmente a través de su modelo de base de código autodesarrollado MarsCode, que contribuye con millones de líneas de código a los usuarios cada mes, demuestra su posición de liderazgo en este campo.

Dirección del conjunto de datos de código abierto: https://huggingface.co/datasets/ByteDance/FullStackBench

Dirección del sandbox de código abierto: https://github.com/bytedance/SandboxFusion

Dirección del artículo: https://arxiv.org/pdf/2412.00535v2