OpenAI a récemment publié un important rapport d'évaluation des capacités de programmation de l'IA, révélant, grâce à des projets de développement réels d'une valeur d'un million de dollars, l'état actuel de l'IA dans le domaine du développement logiciel. Ce test de référence, appelé SWE-Lancer, couvre 1 400 projets réels provenant d'Upwork et évalue de manière exhaustive les performances de l'IA dans deux grands domaines : le développement direct et la gestion de projet.

Les résultats des tests montrent que le meilleur modèle d'IA, Claude3.5Sonnet, a un taux de réussite de 26,2 % dans les tâches de codage et de 44,9 % dans les décisions de gestion de projet. Bien que ces résultats soient encore inférieurs à ceux des développeurs humains, ils présentent un potentiel économique considérable.

Les données montrent que le modèle a pu réaliser à lui seul des projets de développement d'une valeur de 208 050 dollars, uniquement dans l'ensemble de données Diamond public. Si l'on étend cela à l'ensemble de données complet, l'IA pourrait traiter des tâches d'une valeur de plus de 400 000 dollars.

QQ20250220-103559.png

Cependant, l'étude a également révélé les limites évidentes de l'IA dans les tâches de développement complexes. Bien que l'IA puisse effectuer des tâches simples de correction d'erreurs (comme la correction des appels d'API redondants), elle est moins performante face à des projets complexes nécessitant une compréhension approfondie et des solutions globales (comme le développement d'une fonction de lecture vidéo multiplateforme). Il est particulièrement important de noter que l'IA peut souvent identifier le code problématique, mais a du mal à comprendre la cause profonde et à fournir une solution complète.

Pour faire progresser la recherche dans ce domaine, OpenAI a publié en open source sur GitHub l'ensemble de données SWE-Lancer Diamond et les outils associés, permettant aux chercheurs d'évaluer les performances de différents modèles de programmation selon des normes unifiées. Cette initiative fournira une référence importante pour l'amélioration des capacités de programmation de l'IA.