Meta AI ने हाल ही में SPIRIT LM नामक एक बुनियादी मल्टीमॉडल भाषा मॉडल को ओपन-सोर्स किया है, जो टेक्स्ट और वॉयस को स्वतंत्र रूप से मिलाने में सक्षम है, जिससे ऑडियो और टेक्स्ट के मल्टीमॉडल कार्यों के लिए नए अवसर खुलते हैं।
SPIRIT LM एक 70 अरब पैरामीटर के प्री-ट्रेंड टेक्स्ट भाषा मॉडल पर आधारित है, जो टेक्स्ट और वॉयस यूनिट पर निरंतर प्रशिक्षण के माध्यम से वॉयस मोड में विस्तारित होता है। यह टेक्स्ट बड़े मॉडल की तरह टेक्स्ट को समझने और उत्पन्न करने में सक्षम है, साथ ही यह वॉयस को भी समझ और उत्पन्न कर सकता है, यहां तक कि टेक्स्ट और वॉयस को मिलाकर विभिन्न अद्भुत प्रभाव पैदा कर सकता है! उदाहरण के लिए, आप इसका उपयोग वॉयस पहचान के लिए कर सकते हैं, वॉयस को टेक्स्ट में परिवर्तित करने के लिए; आप इसका उपयोग वॉयस संश्लेषण के लिए कर सकते हैं, टेक्स्ट को वॉयस में परिवर्तित करने के लिए; आप इसका उपयोग वॉयस वर्गीकरण के लिए कर सकते हैं, यह निर्धारित करने के लिए कि एक वॉयस किस भावना को व्यक्त कर रहा है।
और भी खास बात यह है कि SPIRIT LM "भावनात्मक अभिव्यक्ति" में विशेष रूप से कुशल है! यह विभिन्न वॉयस टोन और शैलियों को पहचानने और उत्पन्न करने में सक्षम है, जिससे AI की आवाज अधिक प्राकृतिक और भावनात्मक लगती है। आप कल्पना कर सकते हैं कि SPIRIT LM द्वारा उत्पन्न की गई आवाज अब वह ठंडी मशीन की आवाज नहीं है, बल्कि यह वास्तविक इंसान की तरह बोलती है, जिसमें खुशी, गुस्सा, दुख और खुशी का अनुभव होता है!
AI को "भावनात्मक अभिव्यक्ति" में और बेहतर बनाने के लिए, Meta के शोधकर्ताओं ने SPIRIT LM के दो संस्करण विशेष रूप से विकसित किए हैं:
"बुनियादी संस्करण" (BASE): यह संस्करण मुख्य रूप से वॉयस के ध्वन्यात्मक जानकारी पर ध्यान केंद्रित करता है, यानी वॉयस की "बुनियादी संरचना"।
"अभिव्यक्तिशील संस्करण" (EXPRESSIVE): इस संस्करण में ध्वन्यात्मक जानकारी के अलावा, टोन और शैली की जानकारी भी शामिल है, जिससे AI की आवाज अधिक जीवंत और अभिव्यक्तिपूर्ण हो जाती है।
तो, SPIRIT LM यह सब कैसे करता है?
सरल शब्दों में, SPIRIT LM Meta द्वारा पहले जारी किए गए अत्यधिक शक्तिशाली टेक्स्ट बड़े मॉडल - LLAMA2 पर आधारित है। शोधकर्ताओं ने LLAMA2 को बड़े पैमाने पर टेक्स्ट और वॉयस डेटा "फीड" किया और एक विशेष "इंटरलेव्ड ट्रेनिंग" विधि का उपयोग किया, जिससे LLAMA2 टेक्स्ट और वॉयस के नियमों को एक साथ सीख सके।
SPIRIT LM की "भावनात्मक अभिव्यक्ति" क्षमता का परीक्षण करने के लिए, Meta के शोधकर्ताओं ने एक नया परीक्षण मानक - "वॉयस-टेक्स्ट इमोशन रिटेंशन बेंचमार्क" (STSP) विशेष रूप से डिज़ाइन किया। यह परीक्षण मानक विभिन्न भावनाओं को व्यक्त करने वाले वॉयस और टेक्स्ट संकेतों को शामिल करता है, जिसका उपयोग AI मॉडल की यह पहचानने और संबंधित भावनाओं की वॉयस और टेक्स्ट उत्पन्न करने की क्षमता का परीक्षण करने के लिए किया जाता है। परिणाम बताते हैं कि SPIRIT LM का "अभिव्यक्तिशील संस्करण" भावनात्मक रिटेंशन में उत्कृष्ट प्रदर्शन करता है, जो वर्तमान में पहला AI मॉडल है जो क्रॉस-मोड में भावनात्मक जानकारी को बनाए रख सकता है!
बेशक, Meta के शोधकर्ताओं ने यह भी स्वीकार किया है कि SPIRIT LM में कई सुधार की आवश्यकता है। उदाहरण के लिए, SPIRIT LM वर्तमान में केवल अंग्रेजी का समर्थन करता है, भविष्य में इसे अन्य भाषाओं में भी विस्तारित करने की आवश्यकता है; SPIRIT LM का मॉडल आकार अभी भी पर्याप्त बड़ा नहीं है, भविष्य में इसे और बढ़ाने की आवश्यकता है, ताकि मॉडल के प्रदर्शन में सुधार हो सके।
SPIRIT LM Meta के AI क्षेत्र में एक महत्वपूर्ण突破 है, जिसने हमें "भावनात्मक अभिव्यक्ति" वाले AI की दुनिया के लिए दरवाजे खोले हैं। विश्वास है कि निकट भविष्य में, हम SPIRIT LM पर आधारित और अधिक दिलचस्प अनुप्रयोग देखेंगे, जिससे AI न केवल संवाद कर सकेगा, बल्कि वास्तविक इंसान की तरह भावनाओं को भी व्यक्त कर सकेगा, और हमारे साथ अधिक प्राकृतिक और आत्मीयता से बातचीत कर सकेगा!
प्रोजेक्ट पता: https://speechbot.github.io/spiritlm/
पेपर पता: https://arxiv.org/pdf/2402.05755