Dans le monde du développement de logiciels, la correction d'erreurs est toujours un problème épineux. Aujourd'hui, l'équipe de Doubao, le grand modèle de ByteDance, apporte une bonne nouvelle : elle lance officiellement le premier jeu de données d'ingénierie logicielle (SWE) multilingue — Multi-SWE-bench. Ce nouveau jeu de données vise à évaluer et à améliorer la capacité des grands modèles à corriger automatiquement les erreurs de code.
Multi-SWE-bench, contrairement aux jeux de données monolingues précédents, élargit considérablement son champ d'application. Ce jeu de données couvre non seulement Python, mais aussi sept langages de programmation majeurs : Java, Go, Rust, C, C++, TypeScript et JavaScript, réalisant ainsi une véritable référence d'évaluation « full-stack ». Cela signifie que les développeurs, quelle que soit la langue qu'ils utilisent, peuvent en bénéficier.
Le processus de construction du jeu de données mérite également d'être souligné. Multi-SWE-bench contient 1632 exemples de programmation réels, tous issus des retours de problèmes sur GitHub. Pour garantir la qualité, ces exemples ont été soumis à des normes de test uniformes et à un processus de sélection par des développeurs professionnels, garantissant que chaque échantillon dispose d'une description claire du problème, d'un correctif efficace et d'un environnement de test reproductible.
L'équipe du grand modèle Doubao espère que ce nouveau jeu de données permettra de promouvoir l'évaluation systématique des grands modèles dans plusieurs langages de programmation majeurs et dans des environnements de code réels, afin d'améliorer leurs capacités de programmation automatique et de les orienter vers un développement plus pratique et plus orienté ingénierie. Cet effort permettra non seulement aux développeurs de gagner du temps, mais aussi d'améliorer l'efficacité et la qualité du développement logiciel.
Dans le développement réel, la correction d'erreurs n'est pas seulement un problème technique, mais aussi un facteur important qui influence l'avancement du projet et le moral de l'équipe. Par conséquent, le lancement de Multi-SWE-bench pourrait constituer une étape clé pour l'automatisation future de l'ingénierie logicielle.
Ce nouveau jeu de données de ByteDance marque une avancée importante dans la technologie de correction automatique de code et devrait faciliter le travail des développeurs.