अली क्लाउड ने हाल ही में Qwen-Audio नामक एक बड़े पैमाने पर ऑडियो भाषा मॉडल लॉन्च किया है, जो विभिन्न ऑडियो सिग्नल इनपुट को स्वीकार कर सकता है, ऑडियो विश्लेषण कर सकता है या सीधे वॉयस कमांड का उत्तर दे सकता है, जिससे वॉयस इंटरैक्शन अनुभव में काफी सुधार होता है।

image.png

उत्पाद लिंक:https://top.aibase.com/tool/qwen2-audio

इस लॉन्च में, Qwen2udio ने दो अनोखे ऑडियो इंटरैक्शन मोड प्रदान किए: ऑडियो चैट और ऑडियो विश्लेषण। उपयोगकर्ताओं को टेक्स्ट इनपुट करने की आवश्यकता नहीं है, वे Qwen2-Audio के साथ वॉयस चैट कर सकते हैं और इंटरैक्शन के दौरान ऑडियो और टेक्स्ट प्रदान कर सकते हैं, जिससे उपयोगकर्ताओं को एक अधिक सुविधाजनक अनुभव मिलता है।

Qwen2-Audio ऑडियो में सामग्री को समझने में सक्षम है और वॉयस कमांड के अनुसार उचित प्रतिक्रिया करता है। उदाहरण के लिए, जब ऑडियो खंड में आवाज़, बहु-स्पीकर संवाद और वॉयस कमांड शामिल होते हैं, तो Qwen2-Audio सीधे उस कमांड को समझ सकता है और ऑडियो की व्याख्या और प्रतिक्रिया प्रदान कर सकता है।

इसके अलावा, DPO ने मॉडल के तथ्यात्मकता और अपेक्षित व्यवहार के अनुपालन के प्रदर्शन में सुधार किया है। AIR-Bench के मूल्यांकन परिणामों के अनुसार, Qwen2-Audio ऑडियो-केंद्रित निर्देश ट्रैकिंग कार्यों के परीक्षण में पिछले SOTA जैसे Gemini-1.5-pro से बेहतर प्रदर्शन करता है। Qwen2-Audio ओपन-सोर्स है और बहु-मोडल भाषा समुदाय की प्रगति को बढ़ावा देने के लिए बनाया गया है।

जानकारी के अनुसार, Qwen2-Audio श्रृंखला में दो मॉडल लॉन्च किए जाएंगे: Qwen2-Audio और Qwen-Audio-Chat, जो उपयोगकर्ताओं को अधिक समृद्ध ऑडियो इंटरैक्शन अनुभव प्रदान करेंगे।

शोधकर्ता Qwen2-Audio मॉडल का व्यापक मूल्यांकन करेंगे, विभिन्न कार्यों में इसके प्रदर्शन का मूल्यांकन करेंगे, बिना किसी विशेष कार्य के लिए ट्यूनिंग के। अंग्रेजी ऑटोमेटिक स्पीच रिकग्निशन (ASR) परिणामों के संदर्भ में, Qwen2-Audio पिछले मल्टी-टास्क लर्निंग मॉडलों की तुलना में उच्च प्रदर्शन प्रदर्शित करता है।

image.png

Qwen2-Audio की चैटिंग क्षमताओं के संदर्भ में, शोधकर्ताओं ने AIR-Bench के चैट बेंचमार्क पर इसके प्रदर्शन को मापा (Yang et al., 2024), Qwen2-Audio ने वॉयस, साउंड म्यूजिक और मिश्रित ऑडियो उप-सेट्स में अत्याधुनिक (SOTA) निर्देश ट्रैकिंग क्षमताएँ प्रदर्शित की। Qwen-Audio की तुलना में, इसमें महत्वपूर्ण सुधार दिखा और यह अन्य LALM से काफी बेहतर था।

मुख्य बिंदु:

🌟 अली क्लाउड ने Qwen2-Audio लॉन्च किया, जो एक नवोन्मेषी बड़े पैमाने पर ऑडियो भाषा मॉडल है, जो वॉयस इंटरैक्शन अनुभव को बढ़ाता है;

 Qwen2-Audio विभिन्न ऑडियो सिग्नल इनपुट को स्वीकार कर सकता है, ऑडियो विश्लेषण कर सकता है या सीधे वॉयस कमांड का उत्तर दे सकता है, जिससे वॉयस इंटरैक्शन क्षमताओं का विस्तार होता है;

🌟 तीन चरणों की प्रशिक्षण प्रक्रिया के माध्यम से, Qwen2-Audio के मॉडल संरचना प्रशिक्षण विधि और प्रदर्शन को व्यापक रूप से प्रदर्शित किया गया है, जिससे उपयोगकर्ताओं को उच्च गुणवत्ता वाला ऑडियो इंटरैक्शन अनुभव मिलता है।