फ्रांस का स्वतंत्र गैर-लाभकारी एआई अनुसंधान प्रयोगशाला Kyutai ने एक वॉयस असिस्टेंट Moshi लॉन्च किया है, जो एक क्रांतिकारी वास्तविक समय का मूल बहु-मोडल आधार मॉडल है। यह नवोन्मेषी मॉडल कुछ कार्यों में OpenAI द्वारा मई में पेश किए गए GPT-4o के प्रदर्शन को अनुकरण और पार कर जाता है।

image.png

उत्पाद का प्रवेश द्वार:https://top.aibase.com/tool/moshi-chat

Moshi भावनाओं को समझने और व्यक्त करने के लिए डिज़ाइन किया गया है, और इसमें विभिन्न लहजों (फ्रेंच सहित) में संवाद करने की क्षमता है। यह एक साथ सुनने और ऑडियो और वॉयस उत्पन्न करने में सक्षम है, और पाठ विचार की प्रवाहिता को बनाए रखता है। बताया गया है कि Moshi में मानव जैसी कई भावनाएं हैं, जो 70 प्रकार की भावनाओं और शैलियों में बोलने में सक्षम है।

Moshi की एक प्रमुख विशेषता यह है कि यह दो ऑडियो धाराओं को एक साथ संभाल सकती है, जिससे यह एक साथ सुनने और बोलने में सक्षम है। यह वास्तविक समय की बातचीत पाठ और ऑडियो के मिश्रण के संयुक्त पूर्व-प्रशिक्षण पर आधारित है, जो Kyutai द्वारा विकसित 70 अरब पैरामीटर भाषा मॉडल Helium के संश्लेषित पाठ डेटा का उपयोग करता है।

image.png

Moshi की फाइन-ट्यूनिंग प्रक्रिया में 100,000 "बोलचाल शैली" संश्लेषित संवादों को टेक्स्ट-टू-स्पीच (TTS) तकनीक के माध्यम से परिवर्तित किया गया। इस मॉडल की आवाज़ को एक अन्य TTS मॉडल द्वारा उत्पन्न संश्लेषित डेटा के माध्यम से प्रशिक्षित किया गया, जिससे 200 मिलीसेकंड की आश्चर्यजनक एंड-टू-एंड विलंबता प्राप्त हुई।

यह ध्यान देने योग्य है कि Kyutai ने Moshi का एक छोटा संस्करण भी विकसित किया है, जो MacBook या उपभोक्ता स्तर के GPU पर चलाया जा सकता है, जिससे अधिक व्यापक उपयोगकर्ताओं को इसका उपयोग करने की अनुमति मिलती है।

मुख्य बिंदु: 🔍 Kyutai ने Moshi लॉन्च किया, एक वास्तविक समय का मूल बहु-मोडल आधार एआई मॉडल।

 🔍 Moshi में भावनाओं को समझने और व्यक्त करने की क्षमता है, जो कई लहजों का समर्थन करता है। 

🔍 यह मॉडल कठोर फाइन-ट्यूनिंग और प्रशिक्षण से गुजरा है, जो प्रभावी प्रदर्शन और विविध अनुप्रयोग क्षमता को प्रदर्शित करता है।