OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

En el campo de la ingeniería de software, los métodos tradicionales de evaluación comparativa se quedan cortos ante la evolución constante de los desafíos. El trabajo de ingeniería de software freelance es complejo y variable, mucho más que una simple tarea de codificación aislada. Los ingenieros freelance deben gestionar todo el repositorio de código, integrar múltiples sistemas y satisfacer las complejas necesidades del cliente. Los métodos de evaluación tradicionales, que suelen centrarse en las pruebas unitarias, no reflejan completamente el rendimiento de la pila completa ni el impacto económico real de las soluciones. Por lo tanto, es fundamental desarrollar métodos de evaluación más realistas.

Para ello, OpenAI ha lanzado SWE-Lancer, una evaluación comparativa que evalúa el rendimiento de los modelos en trabajos reales de ingeniería de software freelance. Esta evaluación comparativa se basa en más de 1400 tareas freelance de los repositorios de Upwork y Expensify, con un pago total de 1 millón de dólares. Estas tareas abarcan desde pequeñas correcciones de errores hasta la implementación de grandes funciones. SWE-Lancer está diseñado para evaluar tanto los parches de código individuales como las decisiones de gestión, exigiendo que los modelos seleccionen la mejor propuesta entre varias opciones. Este método refleja mejor el doble papel de los equipos de ingeniería reales.

Una de las grandes ventajas de SWE-Lancer es el uso de pruebas de extremo a extremo, en lugar de pruebas unitarias aisladas. Estas pruebas, cuidadosamente diseñadas y validadas por ingenieros de software profesionales, simulan todo el flujo de trabajo del usuario, desde la identificación del problema y la depuración hasta la validación del parche. Al utilizar una imagen Docker unificada para la evaluación, la evaluación comparativa garantiza que cada modelo se pruebe en las mismas condiciones controladas. Este estricto marco de pruebas ayuda a determinar si las soluciones del modelo son lo suficientemente robustas para su implementación real.

El diseño técnico de SWE-Lancer es ingenioso y refleja fielmente la realidad del trabajo freelance. Las tareas requieren la modificación de varios archivos y la integración con API, involucrando plataformas móviles y web. Además de generar parches de código, los modelos deben revisar y seleccionar propuestas competidoras. Esta doble atención a las habilidades técnicas y de gestión refleja las responsabilidades reales de un ingeniero de software. La inclusión de herramientas de usuario que simulan la interacción real del usuario refuerza aún más la evaluación, fomentando la depuración y el ajuste iterativos.

Los resultados de SWE-Lancer permiten a los investigadores comprender mejor las capacidades de los modelos lingüísticos actuales en el campo de la ingeniería de software. En las tareas de contribución individual, modelos como GPT-4o y Claude3.5Sonnet tuvieron tasas de aprobación del 8.0% y el 26.2%, respectivamente. En las tareas de gestión, el mejor modelo alcanzó una tasa de aprobación del 44.9%. Estos datos indican que, aunque los modelos más avanzados pueden ofrecer soluciones prometedoras, aún queda mucho margen de mejora.

Artículo:https://arxiv.org/abs/2502.12115

Puntos clave:
💡 **Método de evaluación innovador**: La evaluación comparativa SWE-Lancer ofrece una evaluación del rendimiento del modelo más realista mediante tareas de freelance reales.
📈 **Pruebas multidimensionales**: El uso de pruebas de extremo a extremo en lugar de pruebas unitarias refleja mejor la complejidad del trabajo de un ingeniero de software en el mundo real.
🚀 **Potencial de mejora**: Aunque los modelos existentes muestran un rendimiento excelente, aún existe margen de mejora mediante más pruebas y recursos computacionales.

Noticias de IA

OpenAI lanza el benchmark SWE-Lancer: evaluación del rendimiento de los modelos en trabajos de ingeniería de software freelance reales

AIbase基地

Noticias de IA relacionadas recomendadas

El benchmark ARC-AGI está a punto de ser superado, pero su creador advierte sobre fallas en el diseño de la prueba

ByteDance lanza el nuevo benchmark de evaluación de modelos de código de fuente abierta "FullStack Bench"

¡Desconsolador! Epoch AI lanza FrontierMath, un nuevo benchmark matemático; los modelos de IA de primer nivel resuelven menos del 2%

Meta lanza un nuevo benchmark Multi-IF para desafiar la capacidad de seguir instrucciones multilingües y de varias rondas