19 मार्च को, Orpheus TTS नाम का एक ओपन-सोर्स टेक्स्ट-टू-स्पीच (TTS) मॉडल आधिकारिक तौर पर लॉन्च किया गया था। इस मॉडल ने मानवीय भावनाओं के करीबी भावनात्मक अभिव्यक्ति, प्राकृतिक और सहज ध्वनि प्रभाव और अल्ट्रा-लो लेटेंसी रीयल-टाइम आउटपुट स्ट्रीमिंग विशेषताओं के साथ, जल्दी ही ध्यान आकर्षित किया। बताया गया है कि Orpheus TTS रीयल-टाइम बातचीत के परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, और बुद्धिमान ध्वनि इंटरैक्शन में एक नई सफलता लाने की उम्मीद है।
Orpheus TTS कम विलंबता और उच्च भावनात्मक अभिव्यक्ति पर केंद्रित है, इसकी मुख्य विशेषताएँ इस प्रकार हैं: - **अल्ट्रा-लो लेटेंसी**: डिफ़ॉल्ट विलंब लगभग 200 मिलीसेकंड है, इनपुट स्ट्रीम और मॉडल के KV कैश ऑप्टिमाइज़ेशन के माध्यम से, विलंब को 25-50 मिलीसेकंड तक कम किया जा सकता है, जो रीयल-टाइम बातचीत की आवश्यकताओं को पूरा करता है। - **भावनात्मक अभिव्यक्ति**: ध्वनि आउटपुट प्राकृतिक और सहज है, मानवीय भावनाओं के करीब है, समृद्ध स्वर परिवर्तनों का समर्थन करता है, और इंटरैक्शन अनुभव को बेहतर बनाता है। - **रीयल-टाइम आउटपुट स्ट्रीम**: स्ट्रीमिंग ऑडियो जनरेशन का समर्थन करता है, यह सुनिश्चित करता है कि ध्वनि उत्पादन इनपुट के साथ सिंक्रनाइज़ है, और वर्चुअल असिस्टेंट, ग्राहक सेवा प्रणाली आदि जैसे परिदृश्यों के लिए उपयुक्त है।
इसकी कम विलंबता और उच्च प्राकृतिकता के कारण, Orpheus TTS को रीयल-टाइम बातचीत के क्षेत्र में व्यापक क्षमता वाला माना जाता है। चाहे वह बुद्धिमान ध्वनि सहायक हो, ऑनलाइन शिक्षा हो, या वर्चुअल एंकर और गेम चरित्र डबिंग हो, यह मॉडल अधिक मानवीय ध्वनि इंटरैक्शन अनुभव प्रदान कर सकता है। इसके अलावा, इसकी ओपन-सोर्स प्रकृति डेवलपर्स को अधिक अनुकूलन संभावनाएँ प्रदान करती है।
Orpheus TTS भावनात्मक अभिव्यक्ति, प्राकृतिक प्रभाव और अल्ट्रा-लो लेटेंसी के संयोजन के साथ, TTS तकनीक को एक नई ऊंचाई तक ले जाता है। यह न केवल ध्वनि संश्लेषण की गुणवत्ता में सुधार करता है, बल्कि रीयल-टाइम आउटपुट स्ट्रीम के माध्यम से गतिशील इंटरैक्शन परिदृश्यों के लिए एक नया दृश्य खोलता है। भविष्य में, यह मॉडल ओपन-सोर्स TTS क्षेत्र में एक बेंचमार्क बन सकता है।