अलीबाबा ने नई वॉयस मॉडल Qwen2-Audio लॉन्च की, जो OpenAI Whisper से आगे निकल गई है

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Aug 10, 2024

483

हाल ही में, अलीबाबा ने अपने Qwen-Audio के आधार पर एक नया ओपन-सोर्स वॉइस मॉडल Qwen2-Audio लॉन्च किया है। यह मॉडल न केवल वॉइस रिकग्निशन, अनुवाद और ऑडियो विश्लेषण में उत्कृष्ट प्रदर्शन करता है, बल्कि कार्यक्षमता और प्रदर्शन में भी महत्वपूर्ण सुधार किया गया है। Qwen2-Audio में बेस वर्जन और इंस्ट्रक्शन फाइन-ट्यूनिंग वर्जन शामिल हैं, जिससे उपयोगकर्ता वॉइस के माध्यम से ऑडियो मॉडल से प्रश्न पूछ सकते हैं और सामग्री को पहचान और विश्लेषण कर सकते हैं।

उदाहरण के लिए, उपयोगकर्ता किसी महिला से एक वाक्य कहने के लिए कह सकते हैं, Qwen2-Audio उसकी उम्र का अनुमान लगा सकता है या उसकी भावनाओं का विश्लेषण कर सकता है; यदि एक शोर वाली आवाज इनपुट की जाती है, तो मॉडल विभिन्न ध्वनि घटकों का विश्लेषण कर सकता है। Qwen2-Audio में चीनी, Cantonese, फ्रेंच, अंग्रेजी और जापानी सहित कई भाषाओं का समर्थन है, जो भावनात्मक विश्लेषण और अनुवाद अनुप्रयोगों के विकास में बहुत सुविधा प्रदान करता है।

उत्पाद का लिंक: https://top.aibase.com/tool/qwen2-audio

पहली पीढ़ी के Qwen-Audio की तुलना में, Qwen2-Audio ने संरचना और प्रदर्शन में व्यापक रूप से अनुकूलन किया है। प्री-ट्रेनिंग चरण में, इस नए मॉडल ने अधिक स्वाभाविक भाषा संकेतों का उपयोग किया है, जिसने पिछले जटिल स्तरित लेबलों को बदल दिया है। यह सुधार मॉडल को विभिन्न कार्यों को समझने और प्रतिक्रिया देने में अधिक सहज बनाता है, और सामान्यीकरण क्षमता में भी महत्वपूर्ण सुधार किया गया है।

Qwen2-Audio की इंस्ट्रक्शन फॉलोइंग क्षमता भी काफी बढ़ गई है, जो उपयोगकर्ता के निर्देशों को अधिक सटीकता से समझने में सक्षम है। उदाहरण के लिए, जब उपयोगकर्ता "इस ऑडियो में भावनात्मक प्रवृत्ति का विश्लेषण करें" का निर्देश देता है, तो Qwen2-Audio ऑडियो में निहित भावनाओं का सटीक अनुमान लगा सकता है। इसके अलावा, इस मॉडल ने वॉइस चैट और ऑडियो विश्लेषण के दो मोड पेश किए हैं, जिससे उपयोगकर्ता की वॉइस इंटरैक्शन और अधिक स्वाभाविक हो गई है। ऑडियो विश्लेषण मोड में, Qwen2-Audio विभिन्न प्रकार के ऑडियो का गहराई से विश्लेषण कर सकता है और विस्तृत और सटीक विश्लेषण परिणाम प्रदान कर सकता है।

यह सुनिश्चित करने के लिए कि मॉडल का आउटपुट मानव अपेक्षाओं के अनुरूप हो, Qwen2-Audio ने सुपरवाइज्ड फाइन-ट्यूनिंग और डायरेक्ट प्रेफरेंस ऑप्टिमाइजेशन जैसी उन्नत तकनीकों को शामिल किया है। मानव के साथ बातचीत करते समय, मॉडल अधिक स्वाभाविक और सटीक दिखाई देता है।

प्रदर्शन परीक्षण के मामले में, Qwen2-Audio ने कई प्रमुख बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से वॉइस रिकग्निशन और अनुवाद की सटीकता में, OpenAI के Whisper-large-v3 को पार कर गया है। इस नए मॉडल का प्रदर्शन न केवल उद्योग में व्यापक ध्यान आकर्षित करता है, बल्कि वॉइस टेक्नोलॉजी के नए भविष्य का भी संकेत देता है।

महत्वपूर्ण बिंदु:
🌟 Qwen2-Audio अलीबाबा का नवीनतम ओपन-सोर्स वॉइस मॉडल है, जो कई भाषाओं का समर्थन करता है और मजबूत पहचान और विश्लेषण क्षमताएँ रखता है।
🚀 पिछली पीढ़ी की तुलना में, Qwen2-Audio ने प्रदर्शन और संरचना में बड़े पैमाने पर सुधार किया है, जिससे समझने और प्रतिक्रिया देने की क्षमता में वृद्धि हुई है।
🏆 कई प्रदर्शन परीक्षणों में, Qwen2-Audio का प्रदर्शन OpenAI के Whisper से बेहतर है, जो मजबूत प्रतिस्पर्धा को दर्शाता है।

Qwen2-Audio वॉयस पहचान ऑडियो विश्लेषण

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

दौबाओ बड़ा मॉडल के 2024 के 8 महत्वपूर्ण क्षण: एआई नवतारे से पूर्ण突破 तक

आज, दौबाओ बड़ा मॉडल ने दौबाओ बड़ा मॉडल के 8 प्रमुख क्षणों का आधिकारिक उद्घाटन किया! 15 मई, 2024 को पहली बार प्रदर्शित होने के बाद, दौबाओ बड़ा मॉडल ने 230 दिनों के तेज विकास का अनुभव किया। प्रारंभिक भाषण से लेकर समझने की दुनिया की खोज तक, और फिर सृजक के लिए जादुई सपनों की चित्रण करने तक, इस यात्रा के प्रत्येक चरण में चुनौतियों और उपलब्धियों का सामना किया गया। 1. वॉयस पहचान और भावनात्मक अभिव्यक्ति में突破 दौबाओ बड़ा मॉडल ने जुलाई में वॉयस पहचान क्षेत्र में एक बड़ी突破 हासिल की: यह 20 से अधिक भाषाओं के मिश्रित संवाद को समझने में सक्षम है, और विचार करने की क्षमता के साथ सुनने की भी।

Dec 30, 2024

3.9k

Gladia वॉयस पहचान API ने 16 मिलियन डॉलर की सीरीज़ ए फंडिंग प्राप्त की, अमेज़न, माइक्रोसॉफ्ट और गूगल को चुनौती दी

फ्रांस की स्टार्टअप कंपनी Gladia ने एक वॉयस पहचान एप्लिकेशन प्रोग्रामिंग इंटरफेस (API) प्रदान किया है, जिसने सीरीज़ ए फंडिंग में 16 मिलियन डॉलर जुटाए। मूल रूप से, Gladia का API किसी भी ऑडियो फ़ाइल को उच्च सटीकता और कम विलंबता के साथ टेक्स्ट में परिवर्तित कर सकता है। जबकि अमेज़न, माइक्रोसॉफ्ट और गूगल अपनी क्लाउड होस्टिंग उत्पाद सूट के हिस्से के रूप में वॉयस से टेक्स्ट API प्रदान करते हैं, उनके प्रदर्शन कुछ पेशेवर स्टार्टअप द्वारा पेश किए गए नए मॉडल की तरह नहीं है। विशेष रूप से OpenAI के Whisper मॉडल के लॉन्च के बाद, यह क्षेत्र

Oct 16, 2024

1.5k

Deepgram ने वास्तविक समय की स्मार्ट वार्तालाप API लॉन्च की, मानव-मशीन इंटरैक्शन अनुभव में क्रांति

Deepgram ने हाल ही में एक क्रांतिकारी AI वॉयस एजेंट API का अनावरण किया है, जो व्यापारों और डेवलपर्स के लिए अभूतपूर्व स्वाभाविक वार्तालाप अनुभव लाती है। यह API उन्नत वॉयस पहचान और संश्लेषण तकनीकों को एकीकृत करती है, जो वास्तविक समय की बातचीत को समझने और उत्पन्न करने का समर्थन करती है, जिससे प्रभावशाली वॉयस असिस्टेंट बनाने के लिए नए अवसर खुलते हैं, विशेष रूप से ग्राहक समर्थन और ऑर्डर प्रोसेसिंग जैसे परिदृश्यों के लिए। इस API का मुख्य फायदेमंद पहलू इसकी निर्बाध वार्तालाप क्षमता और बुद्धिमान मानव वॉयस प्रोसेसिंग में है। यह तेजी से वॉयस इनपुट को समझ सकती है और इसके अनुसार वॉयस आउटपुट उत्पन्न कर सकती है, जिससे इंटरैक्शन की स्वाभाविकता में काफी सुधार होता है।

Sep 23, 2024

1.8k

AI दैनिक: अली क्लाउड ने ऑडियो मॉडल Qwen2-Audio लॉन्च किया; बाइटडांस 类sora मॉडल推出; AI में 13.11＞13.8

【AI दैनिक】栏目 में आपका स्वागत है! यहां आपके लिए हर दिन आर्टिफिशियल इंटेलिजेंस की दुनिया के बारे में जानने के लिए एक गाइड है, हर दिन हम आपके लिए AI क्षेत्र की गर्म सामग्रियों को प्रस्तुत करते हैं, डेवलपर्स पर केंद्रित होते हैं, एवं आपको तकनीकी प्रवृत्तियों को समझने और नवोन्मेषी AI उत्पादों के अनुप्रयोगों को जानने में मदद करते हैं। नए AI उत्पादों के बारे में जानने के लिए यहां क्लिक करें: https://top.aibase.com/ 1. अली क्लाउड द्वारा Qwen2-Audio लॉन्च किया गया: एक क्रांतिकारी ऑडियो मल्टीमॉडल मॉडल अली क्लाउड द्वारा हाल ही में लॉन्च किया गया Qwen2-Audio बड़े पैमाने पर ऑडियो भाषा मॉडल है, जो वॉयस इंटरएक्टिव अनुभव को क्रांतिकारी बनाने का कार्य करता है, उपयोगकर्ता

Jul 17, 2024

1.2k

Qwen2-Audio: प्रश्न श्रृंखला का ऑडियो मल्टीमॉडल मॉडल बिना टेक्स्ट के वॉयस इंटरैक्शन

अलीबाबा क्लाउड ने 'Qwen-Audio' लॉन्च किया, एक बड़ा ऑडियो भाषा मॉडल जो वॉयस इंटरैक्शन अनुभव को नवाचार करता है। यह मॉडल विभिन्न ऑडियो इनपुट स्वीकार कर सकता है, ऑडियो विश्लेषण करता है और सीधे वॉयस कमांड का जवाब देता है। उपयोगकर्ता अद्वितीय ऑडियो इंटरैक्शन मोड प्रदान कर सकते हैं, जिसमें टेक्स्ट इनपुट की आवश्यकता नहीं है, सीधे वॉयस के जरिए संवाद करते हैं, और ऑडियो में ध्वनि और टेक्स्ट विश्लेषण प्रदान करते हैं। इसमें बुद्धिमान समझने की क्षमता है, जो विभिन्न ऑडियो स्रोतों के कमांड को मिलाकर解析 कर सकती है, जैसे कि एकल आवाज, मल्टीचैनल बातचीत और आदेशों को भेदित करना, और ऑडियो व्याख्या और प्रतिक्रिया में सहायता करना। प्रदर्शन पहले के उत्कृष्ट मॉडलों से बेहतर है, विशेषकर ऑडियो के आधार पर।

Jul 17, 2024

9.7k

WhisperSpeech ने OpenAI के Whisper वॉयस पहचान मॉडल के रिवर्स इंजीनियरिंग के माध्यम से प्राकृतिक वॉयस प्राप्त किया

WhisperSpeech एक ओपन-सोर्स टेक्स्ट-टू-स्पीच सिस्टम है। OpenAI के Whisper वॉयस पहचान मॉडल के रिवर्स इंजीनियरिंग के माध्यम से, यह टेक्स्ट इनपुट प्राप्त करना संभव बनाता है। संशोधित Whisper मॉडल का उपयोग करके प्राकृतिक सुनाई देने वाले वॉयस आउटपुट उत्पन्न किया जाता है। WhisperSpeech का वॉयस आउटपुट उच्च स्तर की उच्चारण सटीकता और प्राकृतिकता के मामले में बहुत उत्कृष्ट है। वर्तमान में WhisperSpeech मॉडल को अंग्रेजी LibreLight डेटा सेट पर प्रशिक्षित किया गया है, अगली संस्करण का लक्ष्य विभिन्न भाषाएँ है।

Jan 22, 2024

530

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन