OpenAI ha publicado recientemente un importante informe de evaluación de la capacidad de programación de la IA, que revela el estado actual de la IA en el desarrollo de software a través de proyectos de desarrollo reales con un valor de 1 millón de dólares. Esta prueba de referencia, denominada SWE-Lancer, abarca 1400 proyectos reales de Upwork y evalúa exhaustivamente el rendimiento de la IA en dos áreas principales: el desarrollo directo y la gestión de proyectos.
Los resultados de las pruebas muestran que el modelo de IA con mejor rendimiento, Claude3.5Sonnet, logró una tasa de éxito del 26,2 % en las tareas de codificación y del 44,9 % en las decisiones de gestión de proyectos. Aunque este resultado aún dista del de los desarrolladores humanos, ya muestra un potencial económico considerable.
Los datos muestran que el modelo pudo completar el desarrollo de proyectos por un valor de 208.050 dólares solo en el conjunto de datos Diamond público. Si se extrapola a todo el conjunto de datos, la IA podría gestionar tareas por un valor superior a 400.000 dólares.
Sin embargo, el estudio también revela las limitaciones evidentes de la IA en tareas de desarrollo complejas. Si bien la IA puede realizar tareas sencillas de corrección de errores (como corregir llamadas redundantes a la API), su rendimiento es deficiente en proyectos complejos que requieren una comprensión profunda y soluciones integrales (como el desarrollo de una función de reproducción de vídeo multiplataforma). Cabe destacar que la IA suele identificar el código problemático, pero tiene dificultades para comprender la causa raíz y ofrecer una solución completa.
Para impulsar el desarrollo de la investigación en este campo, OpenAI ha publicado en GitHub el conjunto de datos SWE-Lancer Diamond y las herramientas relacionadas, lo que permite a los investigadores evaluar el rendimiento de diversos modelos de programación con un estándar unificado. Esta iniciativa proporcionará una referencia importante para la mejora de la capacidad de programación de la IA.