बाइटडांस ने बीजिंग विश्वविद्यालय की अनुसंधान टीम के साथ मिलकर arXiv पर एक पत्र प्रकाशित किया, जिसमें उन्होंने बड़े भाषा मॉडल को प्रशिक्षित करने के लिए अपने उत्पादन प्रणाली MegaScale का परिचय दिया। MegaScale ने 10,000 से अधिक GPU के एकल क्लस्टर का निर्माण किया, जिससे 55.2% मॉडल FLOP उपयोगिता प्राप्त हुई। इस प्रणाली में सिस्टम घटकों और घटनाओं की निगरानी के लिए एक नैदानिक उपकरणों का सेट भी शामिल है, जो मूल कारणों का पता लगाने, दोष सहिष्णुता और विलंबता समस्याओं को हल करने में मदद करता है।