अली क्लाउड ने हाल ही में Qwen-Audio नामक एक बड़े पैमाने पर ऑडियो भाषा मॉडल लॉन्च किया है, जो विभिन्न ऑडियो सिग्नल इनपुट को स्वीकार कर सकता है, ऑडियो विश्लेषण कर सकता है या सीधे वॉयस कमांड का उत्तर दे सकता है, जिससे वॉयस इंटरैक्शन अनुभव में काफी सुधार होता है।
उत्पाद लिंक:https://top.aibase.com/tool/qwen2-audio
इस लॉन्च में, Qwen2udio ने दो अनोखे ऑडियो इंटरैक्शन मोड प्रदान किए: ऑडियो चैट और ऑडियो विश्लेषण। उपयोगकर्ताओं को टेक्स्ट इनपुट करने की आवश्यकता नहीं है, वे Qwen2-Audio के साथ वॉयस चैट कर सकते हैं और इंटरैक्शन के दौरान ऑडियो और टेक्स्ट प्रदान कर सकते हैं, जिससे उपयोगकर्ताओं को एक अधिक सुविधाजनक अनुभव मिलता है।
Qwen2-Audio ऑडियो में सामग्री को समझने में सक्षम है और वॉयस कमांड के अनुसार उचित प्रतिक्रिया करता है। उदाहरण के लिए, जब ऑडियो खंड में आवाज़, बहु-स्पीकर संवाद और वॉयस कमांड शामिल होते हैं, तो Qwen2-Audio सीधे उस कमांड को समझ सकता है और ऑडियो की व्याख्या और प्रतिक्रिया प्रदान कर सकता है।
इसके अलावा, DPO ने मॉडल के तथ्यात्मकता और अपेक्षित व्यवहार के अनुपालन के प्रदर्शन में सुधार किया है। AIR-Bench के मूल्यांकन परिणामों के अनुसार, Qwen2-Audio ऑडियो-केंद्रित निर्देश ट्रैकिंग कार्यों के परीक्षण में पिछले SOTA जैसे Gemini-1.5-pro से बेहतर प्रदर्शन करता है। Qwen2-Audio ओपन-सोर्स है और बहु-मोडल भाषा समुदाय की प्रगति को बढ़ावा देने के लिए बनाया गया है।
जानकारी के अनुसार, Qwen2-Audio श्रृंखला में दो मॉडल लॉन्च किए जाएंगे: Qwen2-Audio और Qwen-Audio-Chat, जो उपयोगकर्ताओं को अधिक समृद्ध ऑडियो इंटरैक्शन अनुभव प्रदान करेंगे।
शोधकर्ता Qwen2-Audio मॉडल का व्यापक मूल्यांकन करेंगे, विभिन्न कार्यों में इसके प्रदर्शन का मूल्यांकन करेंगे, बिना किसी विशेष कार्य के लिए ट्यूनिंग के। अंग्रेजी ऑटोमेटिक स्पीच रिकग्निशन (ASR) परिणामों के संदर्भ में, Qwen2-Audio पिछले मल्टी-टास्क लर्निंग मॉडलों की तुलना में उच्च प्रदर्शन प्रदर्शित करता है।
Qwen2-Audio की चैटिंग क्षमताओं के संदर्भ में, शोधकर्ताओं ने AIR-Bench के चैट बेंचमार्क पर इसके प्रदर्शन को मापा (Yang et al., 2024), Qwen2-Audio ने वॉयस, साउंड म्यूजिक और मिश्रित ऑडियो उप-सेट्स में अत्याधुनिक (SOTA) निर्देश ट्रैकिंग क्षमताएँ प्रदर्शित की। Qwen-Audio की तुलना में, इसमें महत्वपूर्ण सुधार दिखा और यह अन्य LALM से काफी बेहतर था।
मुख्य बिंदु:
🌟 अली क्लाउड ने Qwen2-Audio लॉन्च किया, जो एक नवोन्मेषी बड़े पैमाने पर ऑडियो भाषा मॉडल है, जो वॉयस इंटरैक्शन अनुभव को बढ़ाता है;
Qwen2-Audio विभिन्न ऑडियो सिग्नल इनपुट को स्वीकार कर सकता है, ऑडियो विश्लेषण कर सकता है या सीधे वॉयस कमांड का उत्तर दे सकता है, जिससे वॉयस इंटरैक्शन क्षमताओं का विस्तार होता है;
🌟 तीन चरणों की प्रशिक्षण प्रक्रिया के माध्यम से, Qwen2-Audio के मॉडल संरचना प्रशिक्षण विधि और प्रदर्शन को व्यापक रूप से प्रदर्शित किया गया है, जिससे उपयोगकर्ताओं को उच्च गुणवत्ता वाला ऑडियो इंटरैक्शन अनुभव मिलता है।