Le 5 décembre, l'équipe de modèles de langage de ByteDance a lancé FullStack Bench, un nouveau benchmark d'évaluation pour les grands modèles de code. Il couvre plus de 11 scénarios réels, prend en charge 16 langages de programmation et comprend 3374 problèmes. Ce benchmark, comparé aux standards d'évaluation précédents, permet une évaluation plus précise des capacités de développement de code des grands modèles dans un domaine de programmation plus large, favorisant ainsi leur optimisation pour des tâches de programmation réelles.

Les benchmarks de code actuels, tels que HumanEval et MBPP, se concentrent généralement sur des problèmes de programmation de base et avancés, tandis que DS-1000 se concentre sur l'analyse de données et les tâches d'apprentissage automatique, et ne prend en charge que Python. xCodeEval se concentre sur la programmation avancée et les mathématiques, présentant des limitations importantes en termes d'applications et de couverture linguistique. En comparaison, FullStack Bench améliore considérablement la couverture des données, englobant plus de 11 domaines d'application et des scénarios de programmation plus complexes et variés.

QQ20241205-144253.png

L'ensemble de données de FullStack Bench provient de Stack Overflow, la plus grande plateforme de questions-réponses de programmation au monde. L'équipe de recherche a sélectionné les 88,1 % des domaines d'application parmi 500 000 questions, garantissant ainsi l'étendue et la robustesse de l'ensemble de données. Chaque problème comprend une description détaillée, une solution de référence et des cas de test unitaires pour assurer la précision de l'évaluation. L'équipe a également effectué une évaluation croisée de la qualité des données par IA et par vérification humaine, améliorant ainsi la fiabilité des données.

Pour faciliter l'utilisation de cet ensemble de données par les développeurs, l'équipe de ByteDance a également open-sourcé SandboxFusion, un outil de sandbox de code qui prend en charge l'exécution efficace des tâches de programmation multi-langages. SandboxFusion est compatible avec plus de 10 ensembles de données d'évaluation de code largement utilisés, prend en charge 23 langages de programmation et permet aux développeurs de tester facilement les grands modèles dans différents environnements.

QQ20241205-144446.png

De plus, l'équipe de modèles de langage de ByteDance a présenté pour la première fois son propre grand modèle de code, Doubao-Coder, et a évalué les capacités de programmation de plus de 20 grands modèles de code dans le monde. Les progrès constants de ByteDance dans le domaine de la programmation IA, notamment grâce à son modèle de base de code auto-développé MarsCode, qui contribue des millions de lignes de code par mois pour les utilisateurs, témoignent de sa position de leader dans ce domaine.

Adresse de l'ensemble de données open source : https://huggingface.co/datasets/ByteDance/FullStackBench

Adresse de l'open source du bac à sable : https://github.com/bytedance/SandboxFusion

Adresse de l'article : https://arxiv.org/pdf/2412.00535v2