हाल ही में, बाइटडांस ने अपने नए डेटा चयन फ़्रेमवर्क QuaDMix को लॉन्च करने की घोषणा की है, जिसका उद्देश्य बड़े भाषा मॉडल (LLM) के पूर्व-प्रशिक्षण की दक्षता और सामान्यीकरण क्षमता को बढ़ाना है। जैसा कि हम सभी जानते हैं, मॉडल के प्रशिक्षण परिणाम आधारभूत डेटासेट की गुणवत्ता और विविधता से बहुत प्रभावित होते हैं। हालाँकि, पारंपरिक डेटा फ़िल्टरिंग विधियाँ अक्सर गुणवत्ता और विविधता को दो स्वतंत्र लक्ष्यों के रूप में मानती हैं, पहले गुणवत्ता फ़िल्टरिंग करती हैं, फिर डोमेन संतुलन करती हैं।

QQ_1745804240748.png

इस तरह के क्रमिक अनुकूलन के तरीके गुणवत्ता और विविधता के बीच जटिल पारस्परिक संबंधों की उपेक्षा करते हैं। उच्च-गुणवत्ता वाले डेटासेट में अक्सर डोमेन पूर्वाग्रह होता है, जबकि विविध डेटासेट गुणवत्ता को कम कर सकते हैं। इसलिए, एक निश्चित प्रशिक्षण बजट के तहत, मॉडल के प्रदर्शन को अधिकतम करने के लिए इन दोनों आयामों को एक साथ कैसे अनुकूलित किया जाए, यह एक गंभीर चुनौती बन गई है।

QuaDMix फ़्रेमवर्क मुख्य रूप से तीन चरणों में काम करता है: फ़ीचर निष्कर्षण, गुणवत्ता एकत्रीकरण और गुणवत्ता-विविधता-संवेदनशील नमूनाकरण। प्रारंभिक चरण में, प्रत्येक दस्तावेज़ को डोमेन लेबल और कई गुणवत्ता रेटिंग के साथ चिह्नित किया जाता है। इन रेटिंग को सामान्यीकृत और संयोजित करके, एक समग्र गुणवत्ता स्कोर उत्पन्न किया जाता है। इसके बाद, सिस्टम सिग्मॉइड-आधारित फ़ंक्शन का उपयोग करके दस्तावेज़ों का नमूनाकरण करता है, उच्च-गुणवत्ता वाले नमूनों को प्राथमिकता देता है, और डोमेन संतुलन सुनिश्चित करने के लिए पैरामीटर नियंत्रण का उपयोग करता है।

मॉडल को अनुकूलित करने के लिए, QuaDMix ने विभिन्न पैरामीटर सेटिंग्स के तहत हजारों प्रॉक्सी मॉडल को प्रशिक्षित किया है। इन प्रॉक्सी प्रयोगों द्वारा प्रशिक्षित प्रतिगमन मॉडल प्रदर्शन परिणामों की भविष्यवाणी कर सकते हैं, जिससे इष्टतम नमूनाकरण कॉन्फ़िगरेशन की पहचान हो सकती है। यह विधि उच्च-आयामी पैरामीटर स्थान में संरचित अन्वेषण को संभव बनाती है, जिससे डेटा चयन को बेहतर ढंग से डाउनस्ट्रीम कार्यों से जोड़ा जा सकता है।

प्रयोगात्मक परिणाम दर्शाते हैं कि RefinedWeb डेटासेट पर किए गए सत्यापन प्रयोगों में, QuaDMix ने कई बेसलाइन मॉडल की तुलना में औसतन 39.5% का स्कोर हासिल किया है। इन बेसलाइन मॉडलों में यादृच्छिक चयन, Fineweb-edu, AskLLM, DCLM आदि शामिल हैं। प्रयोगात्मक परिणाम बताते हैं कि संयुक्त अनुकूलन रणनीति समग्र प्रदर्शन में हमेशा गुणवत्ता या विविधता पर अलग से ध्यान केंद्रित करने वाली विधियों से बेहतर होती है। इसके अलावा, अनुकूलित डेटा मिश्रण विशिष्ट डाउनस्ट्रीम कार्यों के प्रदर्शन को बेहतर बना सकता है।

QuaDMix बड़े भाषा मॉडल के पूर्व-प्रशिक्षण डेटा चयन के लिए एक व्यवस्थित समाधान प्रदान करता है, जो लंबे समय से डेटा गुणवत्ता और विविधता को एक साथ अनुकूलित करने की चुनौती का समाधान करता है। गुणवत्ता एकत्रीकरण और डोमेन-जागरूक नमूनाकरण को मिलाकर, QuaDMix एक स्केलेबल पद्धति स्थापित करता है जो LLM पूर्व-प्रशिक्षण की दक्षता में सुधार करता है।

मुख्य बिंदु:

🌟 QuaDMix बाइटडांस द्वारा लॉन्च किया गया एक नया फ़्रेमवर्क है, जिसका उद्देश्य बड़े भाषा मॉडल के पूर्व-प्रशिक्षण में डेटा गुणवत्ता और विविधता को एक साथ अनुकूलित करना है।  

📈 यह फ़्रेमवर्क डेटा चयन को प्राप्त करने के लिए फ़ीचर निष्कर्षण, गुणवत्ता एकत्रीकरण और गुणवत्ता-विविधता-संवेदनशील नमूनाकरण की तीन-चरण प्रक्रिया का उपयोग करता है।  

🔍 प्रयोगात्मक परिणाम दर्शाते हैं कि QuaDMix कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करता है, जिसका औसत स्कोर 39.5% है, जो कई पारंपरिक विधियों से बेहतर है।