Qwen2-Audio: प्रश्न श्रृंखला का ऑडियो मल्टीमॉडल मॉडल बिना टेक्स्ट के वॉयस इंटरैक्शन

AIbase

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Jul 17, 2024

964

अली क्लाउड ने हाल ही में Qwen-Audio नामक एक बड़े पैमाने पर ऑडियो भाषा मॉडल लॉन्च किया है, जो विभिन्न ऑडियो सिग्नल इनपुट को स्वीकार कर सकता है, ऑडियो विश्लेषण कर सकता है या सीधे वॉयस कमांड का उत्तर दे सकता है, जिससे वॉयस इंटरैक्शन अनुभव में काफी सुधार होता है।

उत्पाद लिंक:https://top.aibase.com/tool/qwen2-audio

इस लॉन्च में, Qwen2udio ने दो अनोखे ऑडियो इंटरैक्शन मोड प्रदान किए: ऑडियो चैट और ऑडियो विश्लेषण। उपयोगकर्ताओं को टेक्स्ट इनपुट करने की आवश्यकता नहीं है, वे Qwen2-Audio के साथ वॉयस चैट कर सकते हैं और इंटरैक्शन के दौरान ऑडियो और टेक्स्ट प्रदान कर सकते हैं, जिससे उपयोगकर्ताओं को एक अधिक सुविधाजनक अनुभव मिलता है।

Qwen2-Audio ऑडियो में सामग्री को समझने में सक्षम है और वॉयस कमांड के अनुसार उचित प्रतिक्रिया करता है। उदाहरण के लिए, जब ऑडियो खंड में आवाज़, बहु-स्पीकर संवाद और वॉयस कमांड शामिल होते हैं, तो Qwen2-Audio सीधे उस कमांड को समझ सकता है और ऑडियो की व्याख्या और प्रतिक्रिया प्रदान कर सकता है।

इसके अलावा, DPO ने मॉडल के तथ्यात्मकता और अपेक्षित व्यवहार के अनुपालन के प्रदर्शन में सुधार किया है। AIR-Bench के मूल्यांकन परिणामों के अनुसार, Qwen2-Audio ऑडियो-केंद्रित निर्देश ट्रैकिंग कार्यों के परीक्षण में पिछले SOTA जैसे Gemini-1.5-pro से बेहतर प्रदर्शन करता है। Qwen2-Audio ओपन-सोर्स है और बहु-मोडल भाषा समुदाय की प्रगति को बढ़ावा देने के लिए बनाया गया है।

जानकारी के अनुसार, Qwen2-Audio श्रृंखला में दो मॉडल लॉन्च किए जाएंगे: Qwen2-Audio और Qwen-Audio-Chat, जो उपयोगकर्ताओं को अधिक समृद्ध ऑडियो इंटरैक्शन अनुभव प्रदान करेंगे।

शोधकर्ता Qwen2-Audio मॉडल का व्यापक मूल्यांकन करेंगे, विभिन्न कार्यों में इसके प्रदर्शन का मूल्यांकन करेंगे, बिना किसी विशेष कार्य के लिए ट्यूनिंग के। अंग्रेजी ऑटोमेटिक स्पीच रिकग्निशन (ASR) परिणामों के संदर्भ में, Qwen2-Audio पिछले मल्टी-टास्क लर्निंग मॉडलों की तुलना में उच्च प्रदर्शन प्रदर्शित करता है।

Qwen2-Audio की चैटिंग क्षमताओं के संदर्भ में, शोधकर्ताओं ने AIR-Bench के चैट बेंचमार्क पर इसके प्रदर्शन को मापा (Yang et al., 2024), Qwen2-Audio ने वॉयस, साउंड म्यूजिक और मिश्रित ऑडियो उप-सेट्स में अत्याधुनिक (SOTA) निर्देश ट्रैकिंग क्षमताएँ प्रदर्शित की। Qwen-Audio की तुलना में, इसमें महत्वपूर्ण सुधार दिखा और यह अन्य LALM से काफी बेहतर था।

मुख्य बिंदु:
🌟 अली क्लाउड ने Qwen2-Audio लॉन्च किया, जो एक नवोन्मेषी बड़े पैमाने पर ऑडियो भाषा मॉडल है, जो वॉयस इंटरैक्शन अनुभव को बढ़ाता है;
Qwen2-Audio विभिन्न ऑडियो सिग्नल इनपुट को स्वीकार कर सकता है, ऑडियो विश्लेषण कर सकता है या सीधे वॉयस कमांड का उत्तर दे सकता है, जिससे वॉयस इंटरैक्शन क्षमताओं का विस्तार होता है;
🌟 तीन चरणों की प्रशिक्षण प्रक्रिया के माध्यम से, Qwen2-Audio के मॉडल संरचना प्रशिक्षण विधि और प्रदर्शन को व्यापक रूप से प्रदर्शित किया गया है, जिससे उपयोगकर्ताओं को उच्च गुणवत्ता वाला ऑडियो इंटरैक्शन अनुभव मिलता है।

स्टेबिलिटी एआई का ओपन-सोर्स ऑडियो जनरेशन मॉडल स्टेबल ऑडियो ओपन: 47 सेकंड का स्टीरियो ऑडियो जनरेट कर सकता है

स्टेबिलिटी एआई ने हाल ही में ओपन-सोर्स ऑडियो जनरेशन मॉडल स्टेबल ऑडियो ओपन जारी किया है, जो 47 सेकंड तक का अधिकतम ऑडियो ट्रैक जेनरेट कर सकता है, 44.1kHz के सैंपल दर के साथ। इसमें ओपन वेट्स डिजाइन शामिल है, जो उपयोगकर्ताओं को समीक्षा, संशोधन और विस्तार करने की अनुमति देता है, जिससे अनुसंधान और डेवलपर्स की नवाचार को बढ़ावा मिलता है। डेटा की वैधता और नैतिकता सुनिश्चित करने के लिए क्रिएटिव कॉमन्स लाइसेंस ऑडियो का प्रशिक्षण उपयोग किया गया है। मॉडल की तकनीकी संरचना उन्नत है, जो उच्च गुणवत्ता वाले स्टीरियो जनरेशन का समर्थन करती है, विविधता और उच्च फिडेलिटी का प्रमाणीकरण प्राप्त कर चुकी है, और शीर्ष मॉडलों के प्रदर्शन के बराबर है। यह उपकरण शोधकर्ताओं के लिए अत्यंत उपयोगी है।

AI वॉयसओवर चुनौती असली! 5000 ऑस्ट्रेलियाई अभिनेता बेरोजगारी का सामना कर रहे हैं

ऑस्ट्रेलिया में, आर्टिफिशियल इंटेलिजेंस तकनीक के तेजी से विकास के साथ, वॉयसओवर उद्योग के स्थानीय पेशेवरों को अभूतपूर्व चुनौतियों का सामना करना पड़ रहा है। रिपोर्टों के अनुसार, लगभग 5000 ऑस्ट्रेलियाई वॉयसओवर कलाकारों की नौकरियों को खतरा है, मुख्य कारण यह है कि सस्ते एआई जनित आवाजें मानव वॉयसओवर को चुनौती देना शुरू कर रही हैं। AAVA (ऑस्ट्रेलियन वॉयसओवर आर्टिस्ट्स असोसिएशन) को चिंता है कि आर्टिफिशियल इंटेलिजेंस पूरी तरह से मानव वॉयसओवर कार्यों का स्थान ले सकता है। AAVA के अध्यक्ष साइमोन केनेडी ने कहा कि आर्टिफिशियल इंटेलिजेंस का वॉयसओवर उद्योग पर प्रभाव इस संघ की स्थापना के कुछ कारणों में से एक है, लेकिन वे तकनीक का विरोध नहीं कर रहे हैं, बल्कि वे दृश्यता की आवश्यकता है।

Claude का एंड्रॉइड ऐप: क्या यह ChatGPT की प्रमुख स्थिति को चुनौती दे सकता है?

Anthropic ने घोषणा की है कि उनके प्रसिद्ध चैटबॉट Claude का एंड्रॉइड ऐप आधिकारिक तौर पर लॉन्च हो गया है। यह संकेत देता है कि Claude न केवल अपने उन्नत कृत्रिम बुद्धिमत्ता के माध्यम से उपयोगकर्ताओं के साथ प्राकृतिक इंटरैक्शन करके कार्यों को हल करने और नवाचार सहयोग को बढ़ाता है, बल्कि नए Claude Vision फीचर के माध्यम से छवि सामग्री को भी解析 करता है, AI के उपयोग के क्षेत्र को विस्तारित करता है। OpenAI के प्रसिद्ध उत्पाद ChatGPT की तुलना में, Anthropic विशेष रूप से उपयोगकर्ता गोपनीयता पर ध्यान केंद्रित करता है और उपयोगकर्ता इंटरैक्शन डेटा का उपयोग AI मॉडल को प्रशिक्षित करने के लिए नहीं करता है।

Exa AI: Google का AI क्षेत्र, वास्तविक AI खोज इंजन आ गया है!

Exa AI, एक नया उद्यम जो AI तकनीक के माध्यम से खोज अनुभव को क्रांतिकारी बनाने के लिए समर्पित है, ने 17 मिलियन डॉलर की श्रृंखला A फंडिंग प्राप्त करने की घोषणा की है, जिसे Lightspeed, Nvidia के NVentures और Y Combinator द्वारा सहारा मिला है। पारंपरिक खोज इंजनों से भिन्न, Exa AI को AI के लिए विशेष रूप से डिज़ाइन किए गए खोज उपकरण के रूप में定位 किया गया है, जो जानकारी के सैलाब में ज्ञान के खजाने को निकालने का प्रयास करता है। इसकी मुख्य ताकत निम्नलिखित पहलुओं में निहित है: 1. **डेटा संगठन और छंटाई**: वेक्टर डेटाबेस और एम्बेडिंग मॉडल का उपयोग करें।

AI समाचार

Qwen2-Audio: प्रश्न श्रृंखला का ऑडियो मल्टीमॉडल मॉडल बिना टेक्स्ट के वॉयस इंटरैक्शन

AIbase

संबंधित AI समाचार अनुशंसाएँ

स्टेबिलिटी एआई का ओपन-सोर्स ऑडियो जनरेशन मॉडल स्टेबल ऑडियो ओपन: 47 सेकंड का स्टीरियो ऑडियो जनरेट कर सकता है

AI वॉयसओवर चुनौती असली! 5000 ऑस्ट्रेलियाई अभिनेता बेरोजगारी का सामना कर रहे हैं

Claude का एंड्रॉइड ऐप: क्या यह ChatGPT की प्रमुख स्थिति को चुनौती दे सकता है?

Exa AI: Google का AI क्षेत्र, वास्तविक AI खोज इंजन आ गया है!