ओपन-सोर्स स्थानीय वास्तविक समय बहु-मॉडल मॉडल Moshi: वास्तविक समय में आवाज उत्पन्न करना विभिन्न बोलियों का समर्थन करता है

फ्रांस का स्वतंत्र गैर-लाभकारी एआई अनुसंधान प्रयोगशाला Kyutai ने एक वॉयस असिस्टेंट Moshi लॉन्च किया है, जो एक क्रांतिकारी वास्तविक समय का मूल बहु-मोडल आधार मॉडल है। यह नवोन्मेषी मॉडल कुछ कार्यों में OpenAI द्वारा मई में पेश किए गए GPT-4o के प्रदर्शन को अनुकरण और पार कर जाता है।

उत्पाद का प्रवेश द्वार:https://top.aibase.com/tool/moshi-chat

Moshi भावनाओं को समझने और व्यक्त करने के लिए डिज़ाइन किया गया है, और इसमें विभिन्न लहजों (फ्रेंच सहित) में संवाद करने की क्षमता है। यह एक साथ सुनने और ऑडियो और वॉयस उत्पन्न करने में सक्षम है, और पाठ विचार की प्रवाहिता को बनाए रखता है। बताया गया है कि Moshi में मानव जैसी कई भावनाएं हैं, जो 70 प्रकार की भावनाओं और शैलियों में बोलने में सक्षम है।

Moshi की एक प्रमुख विशेषता यह है कि यह दो ऑडियो धाराओं को एक साथ संभाल सकती है, जिससे यह एक साथ सुनने और बोलने में सक्षम है। यह वास्तविक समय की बातचीत पाठ और ऑडियो के मिश्रण के संयुक्त पूर्व-प्रशिक्षण पर आधारित है, जो Kyutai द्वारा विकसित 70 अरब पैरामीटर भाषा मॉडल Helium के संश्लेषित पाठ डेटा का उपयोग करता है।

Moshi की फाइन-ट्यूनिंग प्रक्रिया में 100,000 "बोलचाल शैली" संश्लेषित संवादों को टेक्स्ट-टू-स्पीच (TTS) तकनीक के माध्यम से परिवर्तित किया गया। इस मॉडल की आवाज़ को एक अन्य TTS मॉडल द्वारा उत्पन्न संश्लेषित डेटा के माध्यम से प्रशिक्षित किया गया, जिससे 200 मिलीसेकंड की आश्चर्यजनक एंड-टू-एंड विलंबता प्राप्त हुई।

यह ध्यान देने योग्य है कि Kyutai ने Moshi का एक छोटा संस्करण भी विकसित किया है, जो MacBook या उपभोक्ता स्तर के GPU पर चलाया जा सकता है, जिससे अधिक व्यापक उपयोगकर्ताओं को इसका उपयोग करने की अनुमति मिलती है।

मुख्य बिंदु: 🔍 Kyutai ने Moshi लॉन्च किया, एक वास्तविक समय का मूल बहु-मोडल आधार एआई मॉडल।
🔍 Moshi में भावनाओं को समझने और व्यक्त करने की क्षमता है, जो कई लहजों का समर्थन करता है।
🔍 यह मॉडल कठोर फाइन-ट्यूनिंग और प्रशिक्षण से गुजरा है, जो प्रभावी प्रदर्शन और विविध अनुप्रयोग क्षमता को प्रदर्शित करता है।

AI समाचार

AIbase