एक स्टार्टअप कंपनी जिसका नाम पांजाया है, वीडियो अनुवाद के खेल के नियमों को पूरी तरह से बदल रही है। तीन साल के गुप्त अनुसंधान के बाद, इस कंपनी ने एक क्रांतिकारी उत्पाद BodyTalk लॉन्च किया है, जो एक एआई टूल है जो वीडियो में व्यक्तियों की आवाज को अन्य भाषाओं में सटीक रूप से परिवर्तित कर सकता है। पारंपरिक डबिंग के विपरीत, BodyTalk न केवल बोलने वाले की मूल ध्वनि विशेषताओं को सही ढंग से नकल कर सकता है, बल्कि वीडियो में व्यक्तियों के चेहरे के भाव और शारीरिक क्रियाओं को भी स्वचालित रूप से समायोजित कर सकता है ताकि वे नई भाषा के ध्वनि पैटर्न के साथ स्वाभाविक रूप से मेल खा सकें।

पांजाया की स्थापना दो इज़रायली सरकार के गहन अध्ययन विशेषज्ञों, हिलिक शानी (Hilik Shani) और एरियल शालोम (Ariel Shalom) ने की। 2021 में, दोनों ने सरकारी विभाग छोड़कर स्टार्टअप शुरू किया, और इसके बाद उद्योग के अनुभव से भरपूर गाय पिकर्ज़ (Guy Piekarz) को सीईओ के रूप में नियुक्त किया। पिकर्ज़ द्वारा स्थापित स्ट्रीमिंग डिस्कवरी और सिफारिश प्लेटफ़ॉर्म Matcha को 2013 में एप्पल द्वारा अधिग्रहित किया गया था।

ऑडियो ध्वनि तरंग

छवि स्रोत नोट: चित्र AI द्वारा उत्पन्न, चित्र लाइसेंस सेवा प्रदाता Midjourney

वर्तमान में, BodyTalk 29 भाषाओं के अनुवाद का समर्थन करता है। इसका कार्यप्रवाह सबसे पहले ऑडियो अनुवाद करना है, फिर मूल ध्वनि बोलने वाले की नई आवाज़ का निर्माण करना है, और अंततः वीडियो में बोलने वाले के मुँह के आकार और क्रियाओं को नई भाषा के अभिव्यक्ति के साथ मेल खाने के लिए स्वचालित रूप से समायोजित करना है। हालाँकि प्रसंस्करण समय वास्तविक समय के करीब है, लेकिन वर्तमान में एक वीडियो के प्रसंस्करण को पूरा करने में अभी भी कुछ मिनट लगते हैं।

तकनीकी स्तर पर, पांजाया ने एक मिश्रित रणनीति अपनाई है, जिसमें तीसरे पक्ष के बड़े भाषा मॉडल का उपयोग किया गया है और साथ ही核心技术 का स्वयं विकास किया गया है। पिकर्ज़ के अनुसार, कंपनी का लिप-सिंकिंग इंजन पूरी तरह से आंतरिक एआई अनुसंधान टीम द्वारा विकसित किया गया है, क्योंकि बाजार में कोई समाधान नहीं है जो इसके कई कोणों, कई बोलने वालों आदि जैसे जटिल व्यावसायिक परिदृश्यों की आवश्यकताओं को पूरा कर सके।

कंपनी वर्तमान में B2B बाजार पर ध्यान केंद्रित कर रही है, और JFrog और TED जैसे संस्थानों के साथ सहयोग कर चुकी है। TED ने कहा है कि पांजाया टूल का उपयोग करके डब किए गए व्याख्यान वीडियो के देखने की संख्या 115% बढ़ गई है, और पूर्ण देखने की दर दोगुनी हो गई है। कंपनी खेल, शिक्षा, विपणन और चिकित्सा जैसे क्षेत्रों में अनुप्रयोगों का विस्तार करने की योजना बना रही है।

प्रौद्योगिकी के दुरुपयोग से बचने के लिए, पांजाया उपकरण के उपयोग की अनुमति को सख्ती से नियंत्रित करता है, और सिंथेसाइज्ड वीडियो सामग्री की पहचान के लिए वॉटरमार्क जैसी सुविधाओं को विकसित करने की योजना बना रहा है। हालांकि उपशीर्षक वीडियो सामग्री का एक मानक हिस्सा बन गए हैं - CBS के एक सर्वेक्षण के अनुसार, अमेरिका के आधे से अधिक दर्शक देखने के दौरान उपशीर्षक चालू करते हैं - लेकिन अंतरराष्ट्रीय बाजार में डबिंग सामग्री की मांग अभी भी विशाल है। अनुसंधान संस्थान CSA के डेटा से पता चलता है कि विशेष रूप से B2B क्षेत्र में, मातृभाषा की सामग्री उच्च उपयोगकर्ता सहभागिता ला सकती है।

इस दौर की 9.5 मिलियन डॉलर की फंडिंग में कई निवेश संस्थान और व्यक्ति शामिल हैं, जिनमें वायोला वेंचर्स, R-Squared वेंचर्स और JFrog के सह-संस्थापक और सीईओ श्लोमी बिन हैम (Shlomi Ben Haim) शामिल हैं। भविष्य में, पांजाया API इंटरफेस लॉन्च करने और प्रसंस्करण गति को और बढ़ाने की योजना बना रहा है, ताकि वास्तविक समय प्रसंस्करण के लक्ष्य की ओर बढ़ा जा सके।