El 13 de agosto, OpenAI anunció el lanzamiento de SWE-bench Verified, un nuevo benchmark para la evaluación de la generación de código, diseñado para evaluar con mayor precisión el rendimiento de los modelos de inteligencia artificial en tareas de ingeniería de software. Este nuevo benchmark aborda varias limitaciones del SWE-bench original.

SWE-bench es un conjunto de datos de evaluación basado en problemas de software reales de GitHub, que incluye 2294 pares de Issue-Pull Request de 12 repositorios populares de Python. Sin embargo, el SWE-bench original presentaba tres problemas principales: las pruebas unitarias eran demasiado estrictas, lo que podía rechazar soluciones correctas; las descripciones de los problemas no eran lo suficientemente claras; y la configuración del entorno de desarrollo era difícil de lograr de forma fiable.

QQ截图20240815145302.png

Para solucionar estos problemas, SWE-bench Verified introduce un nuevo kit de herramientas de evaluación con un entorno Docker contenedorizado, lo que hace que el proceso de evaluación sea más consistente y fiable. Esta mejora ha mejorado significativamente las puntuaciones de rendimiento de los modelos de IA. Por ejemplo, GPT-4o resolvió el 33,2% de las muestras en el nuevo benchmark, mientras que la puntuación del mejor framework de agentes de código abierto, Agentless, se duplicó hasta el 16%.

Esta mejora en el rendimiento indica que SWE-bench Verified captura mejor las capacidades reales de los modelos de IA en tareas de ingeniería de software. Al solucionar las limitaciones del benchmark original, OpenAI proporciona una herramienta de evaluación más precisa para las aplicaciones de IA en el desarrollo de software, lo que podría impulsar el desarrollo y la aplicación de tecnologías relacionadas.

A medida que la aplicación de la IA en la ingeniería de software se generaliza, los benchmarks de evaluación como SWE-bench Verified desempeñarán un papel importante en la medición y el impulso de la mejora de las capacidades de los modelos de IA.

Dirección: https://openai.com/index/introducing-swe-bench-verified/