हाल ही में, अलीबाबा ने अपने Qwen-Audio के आधार पर एक नया ओपन-सोर्स वॉइस मॉडल Qwen2-Audio लॉन्च किया है। यह मॉडल न केवल वॉइस रिकग्निशन, अनुवाद और ऑडियो विश्लेषण में उत्कृष्ट प्रदर्शन करता है, बल्कि कार्यक्षमता और प्रदर्शन में भी महत्वपूर्ण सुधार किया गया है। Qwen2-Audio में बेस वर्जन और इंस्ट्रक्शन फाइन-ट्यूनिंग वर्जन शामिल हैं, जिससे उपयोगकर्ता वॉइस के माध्यम से ऑडियो मॉडल से प्रश्न पूछ सकते हैं और सामग्री को पहचान और विश्लेषण कर सकते हैं।
उदाहरण के लिए, उपयोगकर्ता किसी महिला से एक वाक्य कहने के लिए कह सकते हैं, Qwen2-Audio उसकी उम्र का अनुमान लगा सकता है या उसकी भावनाओं का विश्लेषण कर सकता है; यदि एक शोर वाली आवाज इनपुट की जाती है, तो मॉडल विभिन्न ध्वनि घटकों का विश्लेषण कर सकता है। Qwen2-Audio में चीनी, Cantonese, फ्रेंच, अंग्रेजी और जापानी सहित कई भाषाओं का समर्थन है, जो भावनात्मक विश्लेषण और अनुवाद अनुप्रयोगों के विकास में बहुत सुविधा प्रदान करता है।
उत्पाद का लिंक: https://top.aibase.com/tool/qwen2-audio
पहली पीढ़ी के Qwen-Audio की तुलना में, Qwen2-Audio ने संरचना और प्रदर्शन में व्यापक रूप से अनुकूलन किया है। प्री-ट्रेनिंग चरण में, इस नए मॉडल ने अधिक स्वाभाविक भाषा संकेतों का उपयोग किया है, जिसने पिछले जटिल स्तरित लेबलों को बदल दिया है। यह सुधार मॉडल को विभिन्न कार्यों को समझने और प्रतिक्रिया देने में अधिक सहज बनाता है, और सामान्यीकरण क्षमता में भी महत्वपूर्ण सुधार किया गया है।
Qwen2-Audio की इंस्ट्रक्शन फॉलोइंग क्षमता भी काफी बढ़ गई है, जो उपयोगकर्ता के निर्देशों को अधिक सटीकता से समझने में सक्षम है। उदाहरण के लिए, जब उपयोगकर्ता "इस ऑडियो में भावनात्मक प्रवृत्ति का विश्लेषण करें" का निर्देश देता है, तो Qwen2-Audio ऑडियो में निहित भावनाओं का सटीक अनुमान लगा सकता है। इसके अलावा, इस मॉडल ने वॉइस चैट और ऑडियो विश्लेषण के दो मोड पेश किए हैं, जिससे उपयोगकर्ता की वॉइस इंटरैक्शन और अधिक स्वाभाविक हो गई है। ऑडियो विश्लेषण मोड में, Qwen2-Audio विभिन्न प्रकार के ऑडियो का गहराई से विश्लेषण कर सकता है और विस्तृत और सटीक विश्लेषण परिणाम प्रदान कर सकता है।
यह सुनिश्चित करने के लिए कि मॉडल का आउटपुट मानव अपेक्षाओं के अनुरूप हो, Qwen2-Audio ने सुपरवाइज्ड फाइन-ट्यूनिंग और डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन जैसी उन्नत तकनीकों को शामिल किया है। मानव के साथ बातचीत करते समय, मॉडल अधिक स्वाभाविक और सटीक दिखाई देता है।
प्रदर्शन परीक्षण के मामले में, Qwen2-Audio ने कई प्रमुख बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से वॉइस रिकग्निशन और अनुवाद की सटीकता में, OpenAI के Whisper-large-v3 को पार कर गया है। इस नए मॉडल का प्रदर्शन न केवल उद्योग में व्यापक ध्यान आकर्षित करता है, बल्कि वॉइस टेक्नोलॉजी के नए भविष्य का भी संकेत देता है।
महत्वपूर्ण बिंदु:
🌟 Qwen2-Audio अलीबाबा का नवीनतम ओपन-सोर्स वॉइस मॉडल है, जो कई भाषाओं का समर्थन करता है और मजबूत पहचान और विश्लेषण क्षमताएँ रखता है।
🚀 पिछली पीढ़ी की तुलना में, Qwen2-Audio ने प्रदर्शन और संरचना में बड़े पैमाने पर सुधार किया है, जिससे समझने और प्रतिक्रिया देने की क्षमता में वृद्धि हुई है।
🏆 कई प्रदर्शन परीक्षणों में, Qwen2-Audio का प्रदर्शन OpenAI के Whisper से बेहतर है, जो मजबूत प्रतिस्पर्धा को दर्शाता है।