बाइटडांस ने उच्च-दक्षता पूर्व-प्रशिक्षण लंबाई स्केलिंग तकनीक (Efficient Pretraining Length Scaling) लॉन्च करने की घोषणा की है, जो अभिनव पैरेलल हिडन डिकोडिंग ट्रांसफॉर्मर (PHD-Transformer) ढाँचे के माध्यम से बड़े भाषा मॉडल (LLM) की लंबी श्रृंखला पूर्व-प्रशिक्षण में दक्षता और प्रदर्शन को उल्लेखनीय रूप से बढ़ाता है। AIbase के अनुसार, यह तकनीक अनुमान दक्षता को बनाए रखते हुए, 2048K (2M) तक के संदर्भ लंबाई प्रशिक्षण का समर्थन करती है, जो पारंपरिक ढाँचे में डेटा विषमता और गणना संतुलन पर आने वाली बाधाओं को दूर करती है। संबंधित शोध arXiv पर सार्वजनिक रूप से उपलब्ध है, जिससे AI अनुसंधान समुदाय में व्यापक ध्यान आकर्षित हुआ है।

image.png

मुख्य नवाचार: PHD-Transformer लंबी श्रृंखला प्रशिक्षण का अनुकूलन करता है

बाइटडांस का PHD-Transformer अपनी अनूठी कुंजी-मान कैश (KV Cache) प्रबंधन रणनीति और आर्किटेक्चर अनुकूलन के माध्यम से उच्च-दक्षता लंबाई स्केलिंग प्राप्त करता है। AIbase ने इसके मुख्य तकनीकी पहलुओं का विश्लेषण किया है:

नवीन KV कैश प्रबंधन: PHD-Transformer मूल टोकन और छिपे हुए डिकोडिंग टोकन के बीच अंतर करता है, केवल मूल टोकन के KV कैश को लंबी दूरी की निर्भरता का समर्थन करने के लिए रखता है, और छिपे हुए डिकोडिंग टोकन को उत्पन्न होने के तुरंत बाद हटा दिया जाता है, जिससे पारंपरिक ट्रांसफॉर्मर के समान कैश आकार बना रहता है, जिससे मेमोरी की आवश्यकता कम होती है।

स्लाइडिंग विंडो ध्यान तंत्र: PHD-SWA (स्लाइडिंग विंडो अटेंशन) और PHD-CSWA (चंक-वाइज़ स्लाइडिंग विंडो अटेंशन) दो प्रकार के संस्करण पेश किए गए हैं। पूर्व स्थानीय निर्भरता को बनाए रखता है, जबकि बाद वाला पूर्व-भरण समय के रैखिक वृद्धि को खत्म करने के लिए चंक-वाइज़ प्रसंस्करण के माध्यम से प्रशिक्षण गति को बढ़ाता है।

डेटा विषमता अनुकूलन: प्रशिक्षण डेटा में अनुक्रम लंबाई के असममित वितरण (जैसे, बाइटेड डेटासेट में 80% नमूने ≤4K, और 0.05% नमूने ≥2M हैं) को ध्यान में रखते हुए, यह तकनीक गतिशील संदर्भ समानांतरवाद (Context Parallelism) के माध्यम से छोटे अनुक्रमों के अनावश्यक संचार को कम करती है, जिससे गणना संतुलन सुनिश्चित होता है।

उच्च थ्रूपुट प्रदर्शन: बाइटेड डेटासेट पर, LLaMA-7B (2M संदर्भ लंबाई, 1024 GPU) के प्रशिक्षण प्रयोगों से पता चलता है कि PHD-Transformer थ्रूपुट (प्रति सेकंड टोकन) को उल्लेखनीय रूप से बढ़ाता है, जो पारंपरिक आधार रेखा विधियों से बेहतर है।

AIbase ने देखा है कि समुदाय परीक्षणों में, PHD-Transformer ने मिश्रित लंबे और छोटे अनुक्रम प्रशिक्षण में उत्कृष्ट लचीलापन दिखाया है, खासकर GitHub और बाइटेड डेटासेट की विषमता को संभालते समय, संचार लागत में उल्लेखनीय कमी आई है, और समग्र प्रशिक्षण दक्षता में लगभग 1.7 गुना वृद्धि हुई है।

image.png

तकनीकी आर्किटेक्चर: एल्गोरिथम और सिस्टम सहयोगी डिज़ाइन

PHD-Transformer बाइटडांस के ByteScale ढाँचे पर आधारित है, जो एल्गोरिथम और सिस्टम अनुकूलन को और एकीकृत करता है। AIbase के विश्लेषण के अनुसार, इसके मुख्य घटकों में शामिल हैं:

गतिशील समानांतर रणनीति: डेटा समानांतरवाद और संदर्भ समानांतरवाद को जोड़कर, पारंपरिक स्थिर ग्रिड डिज़ाइन (जैसे, 2D ग्रिड) को तोड़ता है, छोटे अनुक्रमों की संचार अतिरेक को कम करने के लिए अनुकूली समूहीकरण के माध्यम से O(S) संचार जटिलता समस्या को हल करता है।

गणना संतुलन अनुकूलन: लंबे अनुक्रमों की O(S²) गणना जटिलता को ध्यान में रखते हुए, PHD-Transformer माइक्रो-बैच समायोजन और गतिशील विभाजन के माध्यम से उपकरणों के बीच निष्पादन समय को संतुलित करता है, जिससे सिंक्रनाइज़ेशन प्रतीक्षा कम होती है।

VeOmni ढाँचे का समर्थन: बाइटडांस के VeOmni प्रशिक्षण ढाँचे को एकीकृत करता है, जो PyTorch के मूल कार्यों और मॉड्यूलर डिज़ाइन का उपयोग करता है, त्वरक के पार निर्बाध विस्तार का समर्थन करता है, और प्रशिक्षण स्क्रिप्ट पारदर्शिता डेवलपर्स के नियंत्रण को बढ़ाती है।

कम-परिशुद्धता प्रशिक्षण संगतता: 4-बिट संचार मात्राकरण तकनीक (जैसे, SDP4Bit) के साथ संयोजन में, 128 GPU पैमाने पर 4.08 गुना एंड-टू-एंड थ्रूपुट वृद्धि प्राप्त करता है, जबकि प्रशिक्षण हानि लगभग अपरिवर्तित रहती है।

AIbase का मानना है कि PHD-Transformer और ByteScale, VeOmni का सहयोगी डिज़ाइन बाइटडांस के पूर्ण-स्टैक अनुकूलन में गहरे संचय को दर्शाता है, खासकर अल्ट्रा-लार्ज-स्केल क्लस्टर (>12,000 GPU) पर प्रदर्शन में।

अनुप्रयोग परिदृश्य: भाषा मॉडल से बहु-मोडल विस्तार तक

उच्च-दक्षता पूर्व-प्रशिक्षण लंबाई स्केलिंग तकनीक के प्रकाशन ने AI विकास के लिए व्यापक अनुप्रयोग संभावनाएँ खोली हैं। AIbase ने इसके मुख्य परिदृश्यों का सारांश दिया है:

अति-लंबे संदर्भ भाषा मॉडल: 2M संदर्भ लंबाई के पूर्व-प्रशिक्षण का समर्थन करता है, जो कानूनी दस्तावेज़ विश्लेषण, लंबे लेखों के सारांश आदि कार्यों के लिए उपयुक्त है जहाँ अति-लंबे अनुक्रम की समझ की आवश्यकता होती है।

बहु-मोडल मॉडल प्रशिक्षण: VeOmni ढाँचे के माध्यम से छवि, वीडियो और पाठ मिश्रित प्रशिक्षण तक विस्तारित, बाइटडांस के Doubao मॉडल और बहु-मोडल अनुप्रयोगों (जैसे, TikTok सामग्री सिफारिश) के लिए समर्थन प्रदान करता है।

प्रबलित सीखना और अनुमान: लंबे अनुक्रम प्रबलित सीखने (RL) कार्यों का अनुकूलन, जैसे Seed-Thinking-v1.5 का प्रशिक्षण, पुनरावृत्ति गति को तेज करता है और मॉडल स्थिरता में सुधार करता है।

उद्यम-स्तरीय AI परिनियोजन: कम मेमोरी आवश्यकता और उच्च थ्रूपुट विशेषताएँ संसाधन-प्रतिबंधित वातावरण के लिए उपयुक्त हैं, जो छोटे और मध्यम आकार के उद्यमों को कुशल AI सिस्टम बनाने में मदद करती हैं।

समुदाय की प्रतिक्रिया से पता चलता है कि बाइटेड डेटासेट के लंबे अनुक्रम कार्यों (जैसे, 12.1% टोकन ≥2M नमूने) को संभालने में तकनीक विशेष रूप से उत्कृष्ट प्रदर्शन करती है, जिससे जटिल कार्यों के लिए मॉडल की सामान्यीकरण क्षमता में उल्लेखनीय सुधार होता है। AIbase ने देखा है कि इसकी ओपन-सोर्स विशेषता ने अकादमिक और औद्योगिक जगत के बीच सहयोग को और बढ़ावा दिया है।

प्रारंभिक मार्गदर्शिका: डेवलपर के अनुकूल, तेज़ परिनियोजन

AIbase को पता चला है कि PHD-Transformer का कोड और पूर्व-प्रशिक्षित मॉडल GitHub पर ओपन-सोर्स हैं (github.com/ByteDance-Seed), जो PyTorch वातावरण और बहु-त्वरक परिनियोजन का समर्थन करता है। डेवलपर्स निम्नलिखित चरणों का पालन करके जल्दी से शुरू कर सकते हैं:

ByteScale और VeOmni रिपॉजिटरी को क्लोन करें, Python3.9+ और PyTorch निर्भरताएँ स्थापित करें;

प्रशिक्षण डेटासेट (जैसे, FineWeb या कस्टम बाइटेड डेटासेट) को कॉन्फ़िगर करें, 2M संदर्भ लंबाई सेट करें;

प्रदान किए गए qwen2_5.yaml कॉन्फ़िगरेशन फ़ाइल का उपयोग करके, PHD-SWA या PHD-CSWA प्रशिक्षण शुरू करने के लिए train.sh स्क्रिप्ट चलाएँ;

ByteCheckpoint का उपयोग करके वितरित चेकपॉइंट को मर्ज करें, Hugging Face प्रारूप मॉडल निर्यात करें।

समुदाय द्वारा प्रदान किए गए Docker इमेज और Hugging Face एकीकरण ने परिनियोजन प्रक्रिया को सरल बना दिया है। AIbase डेवलपर्स को बड़े पैमाने पर क्लस्टर के पूर्व-भरण दक्षता को अनुकूलित करने के लिए PHD-CSWA संस्करण का परीक्षण करने की सलाह देता है, साथ ही विस्तृत हाइपरपैरामीटर सेटिंग्स के लिए arXiv पेपर देखें।

समुदाय की प्रतिक्रिया और सुधार की दिशाएँ

तकनीक के प्रकाशन के बाद, समुदाय ने लंबे अनुक्रम प्रशिक्षण में इसकी दक्षता और स्थिरता की अत्यधिक सराहना की है। डेवलपर्स ने इसे "अति-लंबे संदर्भ मॉडल के बड़े पैमाने पर प्रशिक्षण के लिए एक नया मार्ग खोलने" के रूप में वर्णित किया है, खासकर मिश्रित अनुक्रम परिदृश्यों में Megatron-LM जैसे ढाँचों से बेहतर प्रदर्शन किया है। हालाँकि, कुछ उपयोगकर्ताओं ने बताया कि PHD-Transformer को छोटे अनुक्रम कार्यों के लिए और अनुकूलन की आवश्यकता है, स्वचालित हाइपरपैरामीटर ट्यूनिंग टूल जोड़ने का सुझाव दिया गया है। समुदाय को यह भी उम्मीद है कि तकनीक बहु-मोडल विश्व मॉडल प्रशिक्षण तक विस्तारित होगी, जिसमें वीडियो और 3D डेटा शामिल होंगे। बाइटडांस ने जवाब दिया कि भविष्य के संस्करण MoE (Mixture-of-Experts) एकीकरण और अधिक कुशल मात्राकरण रणनीतियों का पता लगाएंगे, जिससे प्रशिक्षण लागत और कम होगी। AIbase का अनुमान है कि यह तकनीक Hailuo Image या HunYuan 3D इंजन के साथ एकीकृत होकर एक एकीकृत क्रॉस-मोडल जेनरेटिव ढाँचा बना सकती है।

भविष्य का दृष्टिकोण: AI प्रशिक्षण दक्षता में निरंतर सफलता

बाइटडांस की उच्च-दक्षता पूर्व-प्रशिक्षण लंबाई स्केलिंग तकनीक, PHD-Transformer और ByteScale ढाँचे के माध्यम से, एल्गोरिथम-सिस्टम सहयोगी डिज़ाइन की शक्तिशाली क्षमता को प्रदर्शित करती है। AIbase का मानना है कि 2M संदर्भ लंबाई और 12,000+ GPU पैमाने पर इसकी सफलता ने न केवल LLM पूर्व-प्रशिक्षण की दक्षता सीमा को आगे बढ़ाया है, बल्कि बहु-मोडल और प्रबलित सीखने के कार्यों के लिए भी आधार तैयार किया है। VeOmni ढाँचे के ओपन-सोर्स होने और समुदाय के योगदान के साथ, इस तकनीक के AI प्रशिक्षण के लिए एक मानक उपकरण बनने की उम्मीद है, जो Hugging Face जैसी पारिस्थितिक स्थिति के समान है। AIbase को 2025 में बाइटडांस के आगे के पुनरावृत्तियों की उम्मीद है, खासकर कम-शक्ति प्रशिक्षण और गतिशील डेटा शेड्यूलिंग में सफलता की।

शोध पत्र का पता: https://arxiv.org/pdf/2504.14992