5 दिसंबर को, बाइटडांस के डौबाओ बड़े मॉडल टीम ने नवीनतम कोड बड़े मॉडल मूल्यांकन मानक - FullStack Bench पेश किया, जिसमें 11 से अधिक वास्तविक परिदृश्यों को शामिल किया गया है, 16 प्रोग्रामिंग भाषाओं का समर्थन करता है, और 3374 प्रश्न शामिल हैं। यह मानक पिछले मूल्यांकन मानकों की तुलना में, व्यापक प्रोग्रामिंग क्षेत्रों में बड़े मॉडल की कोड विकास क्षमता का अधिक सटीक मूल्यांकन कर सकता है, जिससे मॉडल के वास्तविक दुनिया के प्रोग्रामिंग कार्यों में अनुकूलन को बढ़ावा मिलता है।
वर्तमान में मुख्यधारा के कोड मूल्यांकन मानक, जैसे HumanEval और MBPP, आमतौर पर बुनियादी और उन्नत प्रोग्रामिंग प्रश्नों पर केंद्रित होते हैं, जबकि DS-1000 डेटा विश्लेषण और मशीन लर्निंग कार्यों पर ध्यान केंद्रित करता है, और केवल Python का समर्थन करता है। xCodeEval उन्नत प्रोग्रामिंग और गणित के क्षेत्र पर केंद्रित है, जिसमें व्यापक अनुप्रयोग परिदृश्य और भाषा कवरेज की सीमाएँ हैं। इसके विपरीत, FullStack Bench डेटा कवरेज के मामले में उल्लेखनीय रूप से मजबूत है, जिसमें 11 से अधिक अनुप्रयोग क्षेत्रों को शामिल किया गया है, और अधिक जटिल और विविध प्रोग्रामिंग परिदृश्यों को कवर करता है।
FullStack Bench का डेटा सेट दुनिया के सबसे बड़े प्रोग्रामिंग प्रश्न-उत्तर मंच Stack Overflow से प्राप्त किया गया है, शोध टीम ने 5 लाख प्रश्नों में से 88.1% अनुप्रयोग क्षेत्रों का चयन किया है, जिससे डेटा सेट की व्यापकता और मजबूती सुनिश्चित होती है। प्रत्येक प्रश्न में विस्तृत प्रश्न विवरण, संदर्भ समाधान और यूनिट परीक्षण मामले शामिल हैं, जो मूल्यांकन की सटीकता सुनिश्चित करते हैं। टीम ने AI और मानव समीक्षा के माध्यम से डेटा गुणवत्ता का क्रॉस-आकलन किया, जिससे डेटा की विश्वसनीयता को और बढ़ाया गया।
डेवलपर्स के लिए इस डेटा सेट का उपयोग करना आसान बनाने के लिए, बाइटडांस टीम ने कोड सैंडबॉक्स टूल - SandboxFusion को ओपन-सोर्स किया है, जो बहुभाषा प्रोग्रामिंग कार्यों के प्रभावी निष्पादन का समर्थन करता है। SandboxFusion 10 से अधिक व्यापक रूप से उपयोग किए जाने वाले कोड मूल्यांकन डेटा सेट के साथ संगत है, 23 प्रोग्रामिंग भाषाओं का समर्थन करता है, और डेवलपर्स को विभिन्न वातावरणों में बड़े मॉडल परीक्षण करने में मदद करता है।
इसके अलावा, बाइटडांस डौबाओ बड़े मॉडल टीम ने पहली बार अपने द्वारा विकसित कोड बड़े मॉडल - Doubao-Coder को प्रदर्शित किया, और दुनिया भर के 20 से अधिक कोड बड़े मॉडल की प्रोग्रामिंग क्षमताओं का मूल्यांकन किया। AI प्रोग्रामिंग क्षेत्र में बाइटडांस की निरंतर प्रगति, विशेष रूप से अपने स्वयं के कोड बेस मॉडल MarsCode के माध्यम से, प्रति माह उपयोगकर्ताओं को लाखों कोड प्रदान करती है, जो इस क्षेत्र में उसकी अग्रणी स्थिति को दर्शाती है।
डेटा सेट ओपन-सोर्स पता: https://huggingface.co/datasets/ByteDance/FullStackBench
सैंडबॉक्स ओपन-सोर्स पता: https://github.com/bytedance/SandboxFusion
पत्र का पता: https://arxiv.org/pdf/2412.00535v2