टेनसेंट क्लाउड ने हाल ही में अपग्रेडेड स्टारवेव नेटवर्क 2.0 लॉन्च किया है, जिसका उद्देश्य बड़े मॉडल प्रशिक्षण की दक्षता को बढ़ाना है। पिछले संस्करण में, बड़े मॉडल के गणना परिणामों के समकालिक संचार समय ने 50% से अधिक हिस्सा लिया, जिससे दक्षता में कमी आई। नए संस्करण स्टारवेव नेटवर्क 2.0 में कई पहलुओं में अपग्रेड किया गया है:
1. एकल क्लस्टर में 100,000 कार्ड समूह नेटवर्क का समर्थन, आकार दोगुना, नेटवर्क संचार दक्षता में 60% की वृद्धि, बड़े मॉडल प्रशिक्षण दक्षता में 20% की वृद्धि, दोष पहचान समय को दिनों से मिनटों तक घटाया गया।
2. स्व-विकसित स्विच, ऑप्टिकल मॉड्यूल, नेटवर्क कार्ड आदि नेटवर्क उपकरणों का अपग्रेड, बुनियादी ढांचा अधिक विश्वसनीय, एकल क्लस्टर में 100,000 कार्ड GPU से अधिक के आकार का समर्थन।
3. नया संचार प्रोटोकॉल TiTa2.0 नेटवर्क कार्ड पर तैनात किया गया है, जाम एल्गोरिदम को सक्रिय जाम नियंत्रण एल्गोरिदम में अपग्रेड किया गया है, संचार दक्षता में 30% की वृद्धि, बड़े मॉडल प्रशिक्षण दक्षता में 10% की वृद्धि।
4. उच्च प्रदर्शन संग्रहण संचार पुस्तकालय TCCL2.0 NVLINK+NET असमानांतर संचार का उपयोग करता है, डेटा के समानांतर प्रसारण को सक्षम करता है, साथ ही Auto-Tune Network Expert स्व-adaptive एल्गोरिदम के साथ, संचार प्रदर्शन में 30% की वृद्धि, बड़े मॉडल प्रशिक्षण दक्षता में 10% की वृद्धि।
5. नई टेनसेंट विशेष तकनीक लिंगजिंग सिमुलेशन प्लेटफॉर्म, क्लस्टर नेटवर्क की पूर्ण निगरानी करता है, GPU नोड समस्या को सटीकता से पहचानता है, 10,000 कार्ड स्तर के प्रशिक्षण दोष पहचान समय को दिनों से मिनटों तक घटाता है।
इन अपग्रेड के माध्यम से, स्टारवेव नेटवर्क की संचार दक्षता में 60% की वृद्धि, बड़े मॉडल प्रशिक्षण दक्षता में 20% की वृद्धि हुई है, और दोष पहचान की सटीकता भी बढ़ी है। ये सुधार बड़े मॉडल प्रशिक्षण की दक्षता और प्रदर्शन को बढ़ाने में मदद करेंगे, जिससे महंगे GPU संसाधनों का अधिकतम उपयोग हो सकेगा।