हाल ही में, बाइटडांस कंपनी ने INFP नामक एक आर्टिफिशियल इंटेलिजेंस सिस्टम लॉन्च करने की घोषणा की है, जो स्थिर व्यक्ति की肖像 फोटो को ऑडियो इनपुट के माध्यम से "बोलने" और प्रतिक्रिया देने में सक्षम बनाता है। पारंपरिक तकनीकों के विपरीत, INFP को बोलने और सुनने की भूमिकाओं को मैन्युअल रूप से निर्दिष्ट करने की आवश्यकता नहीं है, सिस्टम बातचीत की प्रवाह के आधार पर स्वचालित रूप से भूमिकाओं का निर्धारण कर सकता है।
INFP का कार्यप्रवाह दो मुख्य चरणों में विभाजित है। पहला चरण, जिसे "आधारित आंदोलन के सिर की नकल" कहा जाता है, सिस्टम वीडियो से लोगों की बातचीत में चेहरे के भाव और सिर के आंदोलनों का विश्लेषण करके विवरण निकालता है। ये आंदोलन डेटा बाद की एनीमेशन के लिए उपयोग करने के लिए एक प्रारूप में परिवर्तित किए जाते हैं, जिससे स्थिर फोटो को मूल व्यक्ति की गतिविधियों के साथ मिलाया जा सके।
दूसरा चरण "ऑडियो मार्गदर्शित आंदोलन उत्पादन" है, जिसमें सिस्टम ऑडियो इनपुट के आधार पर स्वाभाविक आंदोलन पैटर्न उत्पन्न करता है। अनुसंधान टीम ने एक "आंदोलन गाइड" विकसित किया है, जो बातचीत के दोनों पक्षों के ऑडियो का विश्लेषण करके बोलने और सुनने के आंदोलन पैटर्न बनाता है। इसके बाद, "डिफ्यूजन ट्रांसफार्मर" नामक AI घटक इन पैटर्नों को क्रमिक रूप से अनुकूलित करता है, जिससे सुचारू और वास्तविक आंदोलनों का उत्पादन होता है, जो ऑडियो सामग्री के साथ पूरी तरह मेल खाता है।
सिस्टम को प्रभावी रूप से प्रशिक्षित करने के लिए, अनुसंधान टीम ने DyConv नामक एक संवाद डेटासेट स्थापित किया है, जिसमें 200 से अधिक घंटे के वास्तविक संवाद वीडियो शामिल हैं। मौजूदा संवाद डेटाबेस (जैसे ViCo और RealTalk) की तुलना में, DyConv भावनात्मक अभिव्यक्ति और वीडियो गुणवत्ता के मामले में अनूठा लाभ प्रदान करता है।
बाइटडांस ने कहा कि INFP कई प्रमुख क्षेत्रों में मौजूदा उपकरणों से बेहतर प्रदर्शन करता है, विशेष रूप से आवाज के साथ मेल खाने वाले होंठों की गतिविधि, व्यक्तिगत चेहरे की विशेषताओं को बनाए रखने और विविध प्राकृतिक आंदोलनों को उत्पन्न करने में। इसके अलावा, यह सिस्टम केवल सुनने वाले संवाददाता का वीडियो उत्पन्न करने में भी उत्कृष्ट प्रदर्शन करता है।
हालांकि वर्तमान में INFP केवल ऑडियो इनपुट का समर्थन करता है, अनुसंधान टीम सिस्टम को चित्र और पाठ तक विस्तारित करने की संभावनाओं का पता लगा रही है, भविष्य का लक्ष्य वास्तविक व्यक्ति की पूर्ण-शरीर एनीमेशन बनाने की क्षमता प्राप्त करना है। हालाँकि, इस प्रकार की तकनीक का उपयोग झूठे वीडियो बनाने और गलत जानकारी फैलाने के लिए किया जा सकता है, अनुसंधान टीम ने योजना बनाई है कि मुख्य तकनीक को अनुसंधान संस्थानों के उपयोग तक सीमित रखा जाएगा, जैसे माइक्रोसॉफ्ट अपने उन्नत वॉयस क्लोनिंग सिस्टम का प्रबंधन करता है।
यह तकनीक बाइटडांस की व्यापक AI रणनीति का एक हिस्सा है, जिसमें इसके लोकप्रिय ऐप TikTok और CapCut शामिल हैं, जिससे बाइटडांस के पास AI नवाचार अनुप्रयोगों का एक विस्तृत मंच है।
प्रोजेक्ट लिंक: https://grisoon.github.io/INFP/
महत्वपूर्ण बिंदु:
🎤 INFP स्थिर चित्रों को ऑडियो के माध्यम से "बोलने" की अनुमति देता है, और स्वचालित रूप से बातचीत की भूमिकाओं का निर्धारण करता है।
🎥 यह सिस्टम दो चरणों में कार्य करता है: पहले मानव बातचीत में आंदोलन के विवरण को निकालता है, फिर ऑडियो को स्वाभाविक आंदोलन पैटर्न में परिवर्तित करता है।
📊 बाइटडांस का DyConv डेटासेट 200 घंटे से अधिक उच्च गुणवत्ता वाले संवाद वीडियो शामिल करता है, जो सिस्टम के प्रदर्शन को बढ़ाने में मदद करता है।