कृत्रिम बुद्धिमत्ता की दुनिया में, बड़े भाषा मॉडल (LLM) प्राकृतिक भाषा प्रसंस्करण (NLP) कार्यों को प्रेरित करने वाली एक महत्वपूर्ण शक्ति बन गए हैं। हालाँकि, इन मॉडलों को वास्तव में समझने और स्वरों और पाठ जैसे क्रॉस-मोडल सामग्री उत्पन्न करने के लिए, हमारे पास अभी भी लंबा रास्ता तय करना है। फुडान विश्वविद्यालय की शोध टीम ने "SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities" शीर्षक के पेपर में एक अभिनव समाधान प्रस्तुत किया - SpeechGPT।

image.png

SpeechGPT एक नया प्रकार का बड़ा भाषा मॉडल है, जो न केवल आवाज और पाठ को समझ सकता है, बल्कि इन दोनों के बीच सहजता से परिवर्तन भी कर सकता है। इस तकनीक का मुख्य आधार निरंतर आवाज संकेतों को अव्यक्त करना है, ताकि यह पाठ मोड के साथ एकीकृत हो सके, जिससे मॉडल को आवाज की पहचान और उत्पन्न करने की क्षमता मिल सके।

सरल शब्दों में, यह भावनाओं को पहचानने और व्यक्त करने में सक्षम है, और संदर्भ और मानव निर्देशों के आधार पर विभिन्न शैलियों की आवाज़ प्रतिक्रियाएँ प्रदान करता है। चाहे वह रैप हो, नाटक, रोबोट, मजाकिया या फुसफुसाते हुए, SpeechGPT आवश्यकतानुसार संबंधित शैली की आवाज़ उत्पन्न कर सकता है, जो इसके 100,000 घंटे से अधिक शैक्षणिक और फील्ड-संग्रहित आवाज डेटा के कारण है, जो विभिन्न आवाज़ के दृश्यों और शैलियों को कवर करता है।

SpeechGPT को प्रशिक्षित करने के लिए, शोध टीम ने तीन-चरणीय प्रशिक्षण रणनीति अपनाई:

  • मोड अनुकूलन पूर्व-प्रशिक्षण: इस चरण में, मॉडल को अगली अव्यक्त इकाई की भविष्यवाणी करने के लिए बहुत सारे बिना लेबल वाले आवाज डेटा के माध्यम से प्रशिक्षित किया जाता है, ताकि वह आवाज मोड के अनुकूल हो सके।

  • क्रॉस-मोडल निर्देश फाइन-ट्यूनिंग: SpeechInstruct डेटा सेट का उपयोग करते हुए, जिसमें विभिन्न कार्यों के निर्देश शामिल हैं, मॉडल इस चरण में सीखता है कि क्रॉस-मोडल निर्देशों को कैसे समझें और लागू करें।

  • मोड श्रृंखला निर्देश फाइन-ट्यूनिंग: इस चरण में, मॉडल को मोड के बीच परिवर्तन क्षमता को अनुकूलित करने के लिए और अधिक फाइन-ट्यून किया जाता है।

SpeechGPT के प्रशिक्षण का समर्थन करने के लिए, शोध टीम ने पहला बड़े पैमाने पर क्रॉस-मोडल आवाज निर्देश डेटा सेट SpeechInstruct का निर्माण किया। इस डेटा सेट में क्रॉस-मोडल निर्देश डेटा और मोड श्रृंखला निर्देश डेटा शामिल हैं, जो विभिन्न कार्य प्रकारों को कवर करते हैं।

प्रयोगात्मक परिणाम दर्शाते हैं कि SpeechGPT पाठ कार्यों, क्रॉस-मोडल कार्यों और मौखिक संवाद कार्यों में शक्तिशाली क्षमताएँ प्रदर्शित करता है। यह विभिन्न निर्देशों को सटीकता से समझने और लागू करने में सक्षम है, चाहे वह आवाज को पाठ में ट्रांसक्राइब करना हो, या पाठ को आवाज में बदलना हो, या मौखिक संवाद करना हो।

यह ध्यान देने योग्य है कि, हालांकि SpeechGPT उत्कृष्ट क्षमताएँ प्रदर्शित करता है, फिर भी इसकी आवाज समझने की शोर स्थिरता और आवाज उत्पन्न करने की गुणवत्ता स्थिरता में कुछ कमियाँ हैं। ये चुनौतियाँ मुख्य रूप से गणना और डेटा संसाधनों की सीमाओं के कारण हैं। वर्तमान में, SpeechGPT अभी भी विकास में है, और टीम भविष्य में तकनीकी रिपोर्ट, कोड और मॉडल वजन को ओपन-सोर्स करने की योजना बना रही है, ताकि व्यापक शोध समुदाय इस तकनीक के आगे के विकास और सुधार में भाग ले सके।

परियोजना पृष्ठ का पता: https://top.aibase.com/tool/speechgpt2