कडार讯飞 कंपनी ने हाल ही में घोषणा की है कि इसके नवीनतम विकसित讯飞星火 बहु-मॉडल इंटरएक्टिव बड़े मॉडल ने आधिकारिक रूप से संचालन में प्रवेश किया है। यह तकनीकी प्रगति कडार讯飞 को एकल आवाज इंटरएक्शन तकनीक से ऑडियो-वीडियो स्ट्रीम रियल-टाइम बहु-मॉडल इंटरएक्शन के नए चरण में विस्तारित करने का प्रतीक है। नया मॉडल आवाज, दृश्य और डिजिटल मानव इंटरएक्शन कार्यक्षमता को एकीकृत करता है, जिससे उपयोगकर्ता एक बटन के माध्यम से इन तीनों का Seamless संयोजन कर सकते हैं।

讯飞星火 बहु-मॉडल इंटरएक्टिव बड़े मॉडल का लॉन्च, पहली बार सुपर-मानवीकरण डिजिटल मानव तकनीक को पेश करता है, यह तकनीक डिजिटल मानव के धड़ और अंगों की गतिविधियों को आवाज सामग्री के साथ सटीक रूप से मेल करने की अनुमति देती है, जिससे भावनाएँ और क्रियाएँ तेजी से उत्पन्न होती हैं, और एआई की जीवंतता और वास्तविकता में काफी वृद्धि होती है। टेक्स्ट, आवाज और भावनाओं को एकीकृत करके, नया मॉडल क्रॉस-मॉडल अर्थ सुसंगतता को साकार करता है, जिससे भावनाओं की अभिव्यक्ति अधिक वास्तविक और लगातार होती है।

微信截图_20241115083401.png

इसके अलावा,讯飞星火 सुपर-मानवीकरण त्वरित इंटरएक्शन तकनीक का समर्थन करता है, जो एकीकृत न्यूरल नेटवर्क का उपयोग करके आवाज से आवाज तक अंत-से-अंत मॉडलिंग को सीधे लागू करता है, जिससे प्रतिक्रिया की गति और तरलता में वृद्धि होती है। यह तकनीक भावनात्मक परिवर्तनों का तेजी से पता लगाने में सक्षम है और आदेशों के अनुसार आवाज के ताल, आकार और व्यक्ति की पहचान को स्वतंत्र रूप से समायोजित कर सकती है, जिससे अधिक व्यक्तिगत इंटरएक्टिव अनुभव प्रदान होता है।

微信截图_20241115083600.png

बहु-मॉडल दृश्य इंटरएक्शन के क्षेत्र में,讯飞星火 "दुनिया को सुनने" और "सभी चीजों को पहचानने" में सक्षम है, जो विशेष पृष्ठभूमि दृश्य, लॉजिस्टिक्स स्थिति आदि की जानकारी को पूरी तरह से महसूस करता है, जिससे कार्य की समझ अधिक सटीक होती है। आवाज, इशारों, व्यवहार, भावनाओं आदि की विभिन्न जानकारी को एकीकृत करके, मॉडल उचित उत्तर दे सकता है, जिससे उपयोगकर्ताओं को अधिक समृद्ध और सटीक इंटरएक्टिव अनुभव प्रदान किया जा सके।

बहु-मॉडल इंटरएक्शन बड़े मॉडल SDK: https://www.xfyun.cn/solutions/Multimodel