कडार讯飞 कंपनी ने हाल ही में घोषणा की है कि इसके नवीनतम विकसित讯飞星火 बहु-मॉडल इंटरएक्टिव बड़े मॉडल ने आधिकारिक रूप से संचालन में प्रवेश किया है। यह तकनीकी प्रगति कडार讯飞 को एकल आवाज इंटरएक्शन तकनीक से ऑडियो-वीडियो स्ट्रीम रियल-टाइम बहु-मॉडल इंटरएक्शन के नए चरण में विस्तारित करने का प्रतीक है। नया मॉडल आवाज, दृश्य और डिजिटल मानव इंटरएक्शन कार्यक्षमता को एकीकृत करता है, जिससे उपयोगकर्ता एक बटन के माध्यम से इन तीनों का Seamless संयोजन कर सकते हैं।
讯飞星火 बहु-मॉडल इंटरएक्टिव बड़े मॉडल का लॉन्च, पहली बार सुपर-मानवीकरण डिजिटल मानव तकनीक को पेश करता है, यह तकनीक डिजिटल मानव के धड़ और अंगों की गतिविधियों को आवाज सामग्री के साथ सटीक रूप से मेल करने की अनुमति देती है, जिससे भावनाएँ और क्रियाएँ तेजी से उत्पन्न होती हैं, और एआई की जीवंतता और वास्तविकता में काफी वृद्धि होती है। टेक्स्ट, आवाज और भावनाओं को एकीकृत करके, नया मॉडल क्रॉस-मॉडल अर्थ सुसंगतता को साकार करता है, जिससे भावनाओं की अभिव्यक्ति अधिक वास्तविक और लगातार होती है।
इसके अलावा,讯飞星火 सुपर-मानवीकरण त्वरित इंटरएक्शन तकनीक का समर्थन करता है, जो एकीकृत न्यूरल नेटवर्क का उपयोग करके आवाज से आवाज तक अंत-से-अंत मॉडलिंग को सीधे लागू करता है, जिससे प्रतिक्रिया की गति और तरलता में वृद्धि होती है। यह तकनीक भावनात्मक परिवर्तनों का तेजी से पता लगाने में सक्षम है और आदेशों के अनुसार आवाज के ताल, आकार और व्यक्ति की पहचान को स्वतंत्र रूप से समायोजित कर सकती है, जिससे अधिक व्यक्तिगत इंटरएक्टिव अनुभव प्रदान होता है।
बहु-मॉडल दृश्य इंटरएक्शन के क्षेत्र में,讯飞星火 "दुनिया को सुनने" और "सभी चीजों को पहचानने" में सक्षम है, जो विशेष पृष्ठभूमि दृश्य, लॉजिस्टिक्स स्थिति आदि की जानकारी को पूरी तरह से महसूस करता है, जिससे कार्य की समझ अधिक सटीक होती है। आवाज, इशारों, व्यवहार, भावनाओं आदि की विभिन्न जानकारी को एकीकृत करके, मॉडल उचित उत्तर दे सकता है, जिससे उपयोगकर्ताओं को अधिक समृद्ध और सटीक इंटरएक्टिव अनुभव प्रदान किया जा सके।
बहु-मॉडल इंटरएक्शन बड़े मॉडल SDK: https://www.xfyun.cn/solutions/Multimodel