Científicos de la computación evaluaron la capacidad de varios modelos de lenguaje grande (LLM) para responder preguntas de codificación Java en StackOverflow, descubriendo que la calidad del código generado aún deja mucho que desear.
Los investigadores recopilaron 1208 preguntas de codificación Java de StackOverflow, que involucraban 24 API comunes de Java. Luego, utilizaron 4 LLM con capacidad de generación de código para responder a estas preguntas y evaluaron las respuestas utilizando RobustAPI, un verificador de API desarrollado por ellos mismos.
Los resultados mostraron que GPT-3.5 y GPT-4 tuvieron tasas de uso incorrecto de API del 49.83% y 62.09%, respectivamente.
El estudio concluye que existe una brecha significativa entre la mejora en la capacidad de generación de código de los LLM y la fiabilidad y robustez del código generado, y que aún hay margen de mejora.