वोल्कन इंजन ने हाल ही में वीडियो क्लाउड टेक्नोलॉजी कॉन्फ्रेंस में एक महत्वपूर्ण नवाचार प्रस्तुत किया: बड़े मॉडल प्रशिक्षण वीडियो पूर्व-प्रसंस्करण समाधान। यह तकनीक डौबाओ वीडियो जनरेशन मॉडल पर सफलतापूर्वक लागू की गई है, जो AI वीडियो जनरेशन तकनीक में एक महत्वपूर्ण प्रगति का प्रतीक है।
वोल्कन इंजन के राष्ट्रपति तान डाई ने जोर देकर कहा कि AIGC और मल्टी-मोडल तकनीक उपयोगकर्ता अनुभव को गहराई से बदल रही हैं। डौइंग के व्यावहारिक अनुभव के आधार पर, वोल्कन इंजन AI बड़े मॉडल और वीडियो तकनीक के एकीकरण की सक्रिय खोज कर रहा है, जिससे कंपनियों को समग्र समाधान प्रदान किया जा सके।
डौइंग समूह के वीडियो आर्किटेक्चर प्रमुख वांग युए ने指出 किया कि बड़े मॉडल प्रशिक्षण कई चुनौतियों का सामना कर रहा है, जिसमें विशाल डेटा प्रसंस्करण की उच्च लागत, नमूने की गुणवत्ता में भिन्नता, प्रसंस्करण श्रृंखला की जटिलता, और विभिन्न हेटेरोजेनियस कंप्यूटिंग संसाधनों का समन्वय शामिल हैं।
इन चुनौतियों का सामना करने के लिए, वोल्कन इंजन द्वारा विकसित पूर्व-प्रसंस्करण समाधान अपने स्वयं के मल्टीमीडिया प्रोसेसिंग फ्रेमवर्क BMF पर आधारित है, और Intel के विविध कंप्यूटिंग संसाधनों का उपयोग करता है। यह समाधान एल्गोरिदम और इंजीनियरिंग स्तर पर अनुकूलित किया गया है, जो विशाल वीडियो डेटा को कुशलतापूर्वक संसाधित कर सकता है और मॉडल प्रशिक्षण दक्षता में महत्वपूर्ण सुधार करता है।
इसके अलावा, वोल्कन इंजन ने मोबाइल प्लेटफॉर्म के लिए BMF लाइट संस्करण नामक पोस्ट-प्रोसेसिंग समाधान को ओपन-सोर्स किया है, जो एंटर-साइड बड़े मॉडल कनेक्शन और ऑपरेटर त्वरक का समर्थन करता है, जिससे यह और अधिक हल्का और सामान्य हो गया है।
यह ध्यान देने योग्य है कि 24 सितंबर को जारी डौबाओ वीडियो जनरेशन मॉडल PixelDance ने इस तकनीकी समाधान को अपनाया है। यह मॉडल DiT आर्किटेक्चर का उपयोग करता है, जो बहु-एजेंट गति के जटिल इंटरैक्शन और बहु-शॉट स्विचिंग की सामग्री संगति की समस्याओं को हल करता है। वर्तमान में, डौबाओ वीडियो जनरेशन मॉडल को वोल्कन इंजन के माध्यम से कंपनियों के लिए ओपन टेस्टिंग के लिए उपलब्ध कराया गया है।