Évaluation des modèles de langage de grande taille pour la génération de code Java

Des chercheurs en informatique ont évalué la capacité de plusieurs grands modèles de langage (LLM) à répondre à des questions de codage Java sur StackOverflow. Les résultats révèlent que la qualité du code généré par ces modèles reste insatisfaisante.

Les chercheurs ont collecté 1208 questions de codage Java sur StackOverflow, couvrant 24 API Java courantes. Ils ont ensuite utilisé 4 LLM capables de générer du code pour y répondre, et ont évalué les réponses à l'aide de RobustAPI, un vérificateur d'API qu'ils ont développé.

Les résultats montrent que GPT-3.5 et GPT-4 ont respectivement des taux de mauvaise utilisation de l'API de 49,83 % et 62,09 %.

L'étude conclut qu'il existe un écart significatif entre l'amélioration des capacités de génération de code des grands modèles de langage et la fiabilité et la robustesse du code généré. Des améliorations sont encore nécessaires.