हाल ही में, अलीबाबा ने अपने Qwen-Audio के आधार पर एक नया ओपन-सोर्स वॉइस मॉडल Qwen2-Audio लॉन्च किया है। यह मॉडल न केवल वॉइस रिकग्निशन, अनुवाद और ऑडियो विश्लेषण में उत्कृष्ट प्रदर्शन करता है, बल्कि कार्यक्षमता और प्रदर्शन में भी महत्वपूर्ण सुधार किया गया है। Qwen2-Audio में बेस वर्जन और इंस्ट्रक्शन फाइन-ट्यूनिंग वर्जन शामिल हैं, जिससे उपयोगकर्ता वॉइस के माध्यम से ऑडियो मॉडल से प्रश्न पूछ सकते हैं और सामग्री को पहचान और विश्लेषण कर सकते हैं।

image.png

उदाहरण के लिए, उपयोगकर्ता किसी महिला से एक वाक्य कहने के लिए कह सकते हैं, Qwen2-Audio उसकी उम्र का अनुमान लगा सकता है या उसकी भावनाओं का विश्लेषण कर सकता है; यदि एक शोर वाली आवाज इनपुट की जाती है, तो मॉडल विभिन्न ध्वनि घटकों का विश्लेषण कर सकता है। Qwen2-Audio में चीनी, Cantonese, फ्रेंच, अंग्रेजी और जापानी सहित कई भाषाओं का समर्थन है, जो भावनात्मक विश्लेषण और अनुवाद अनुप्रयोगों के विकास में बहुत सुविधा प्रदान करता है।

उत्पाद का लिंक: https://top.aibase.com/tool/qwen2-audio

पहली पीढ़ी के Qwen-Audio की तुलना में, Qwen2-Audio ने संरचना और प्रदर्शन में व्यापक रूप से अनुकूलन किया है। प्री-ट्रेनिंग चरण में, इस नए मॉडल ने अधिक स्वाभाविक भाषा संकेतों का उपयोग किया है, जिसने पिछले जटिल स्तरित लेबलों को बदल दिया है। यह सुधार मॉडल को विभिन्न कार्यों को समझने और प्रतिक्रिया देने में अधिक सहज बनाता है, और सामान्यीकरण क्षमता में भी महत्वपूर्ण सुधार किया गया है।

Qwen2-Audio की इंस्ट्रक्शन फॉलोइंग क्षमता भी काफी बढ़ गई है, जो उपयोगकर्ता के निर्देशों को अधिक सटीकता से समझने में सक्षम है। उदाहरण के लिए, जब उपयोगकर्ता "इस ऑडियो में भावनात्मक प्रवृत्ति का विश्लेषण करें" का निर्देश देता है, तो Qwen2-Audio ऑडियो में निहित भावनाओं का सटीक अनुमान लगा सकता है। इसके अलावा, इस मॉडल ने वॉइस चैट और ऑडियो विश्लेषण के दो मोड पेश किए हैं, जिससे उपयोगकर्ता की वॉइस इंटरैक्शन और अधिक स्वाभाविक हो गई है। ऑडियो विश्लेषण मोड में, Qwen2-Audio विभिन्न प्रकार के ऑडियो का गहराई से विश्लेषण कर सकता है और विस्तृत और सटीक विश्लेषण परिणाम प्रदान कर सकता है।

यह सुनिश्चित करने के लिए कि मॉडल का आउटपुट मानव अपेक्षाओं के अनुरूप हो, Qwen2-Audio ने सुपरवाइज्ड फाइन-ट्यूनिंग और डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन जैसी उन्नत तकनीकों को शामिल किया है। मानव के साथ बातचीत करते समय, मॉडल अधिक स्वाभाविक और सटीक दिखाई देता है।

प्रदर्शन परीक्षण के मामले में, Qwen2-Audio ने कई प्रमुख बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से वॉइस रिकग्निशन और अनुवाद की सटीकता में, OpenAI के Whisper-large-v3 को पार कर गया है। इस नए मॉडल का प्रदर्शन न केवल उद्योग में व्यापक ध्यान आकर्षित करता है, बल्कि वॉइस टेक्नोलॉजी के नए भविष्य का भी संकेत देता है।

महत्वपूर्ण बिंदु:

🌟 Qwen2-Audio अलीबाबा का नवीनतम ओपन-सोर्स वॉइस मॉडल है, जो कई भाषाओं का समर्थन करता है और मजबूत पहचान और विश्लेषण क्षमताएँ रखता है।

🚀 पिछली पीढ़ी की तुलना में, Qwen2-Audio ने प्रदर्शन और संरचना में बड़े पैमाने पर सुधार किया है, जिससे समझने और प्रतिक्रिया देने की क्षमता में वृद्धि हुई है।

🏆 कई प्रदर्शन परीक्षणों में, Qwen2-Audio का प्रदर्शन OpenAI के Whisper से बेहतर है, जो मजबूत प्रतिस्पर्धा को दर्शाता है।