नई ओपन-सोर्स ऑडियो मॉडल Hertz-Dev: अल्ट्रा-लो लैटेंसी, एआई वास्तविक समय संवाद को सक्षम करना

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Nov 4, 2024

424

आज की तकनीकी लहर में, संवादात्मक कृत्रिम बुद्धिमत्ता (AI) हमारे जीवन का एक महत्वपूर्ण हिस्सा बन गई है। हालांकि, तेज, कुशल और वास्तविक समय की बातचीत अभी भी एक चुनौती है। विशेष रूप से, विलंबता समस्या, जो इनपुट और प्रतिक्रिया के बीच के समय अंतर को संदर्भित करती है, अक्सर ग्राहक सेवा रोबोट और आभासी सहायकों के अनुभव को धीमा कर देती है, जिससे उपयोगकर्ता के अनुभव पर नकारात्मक प्रभाव पड़ता है।

इस कमी को पूरा करने के लिए, Standard Intelligence Lab ने हाल ही में Hertz-Dev लॉन्च किया है, जो एक ओपन-सोर्स 850 मिलियन पैरामीटर ऑडियो मॉडल है, जिसे वास्तविक समय के संवाद AI में एक छलांग लगाने के लिए डिज़ाइन किया गया है।

Hertz-Dev की सबसे बड़ी विशेषता इसके उत्कृष्ट प्रदर्शन मापदंड हैं, सैद्धांतिक विलंब केवल 80 मिलीसेकंड है, जबकि वास्तविक उपयोग में विलंब 120 मिलीसेकंड है, और इसके लिए केवल एक NVIDIA RTX4090 ग्राफिक्स कार्ड की आवश्यकता होती है। यह कुशल मॉडल डेवलपर्स और शोधकर्ताओं को विशाल बुनियादी ढांचे की आवश्यकता के बिना उन्नत AI तकनीक का अनुभव करने की अनुमति देता है, जिससे जटिल ऑडियो मॉडलिंग तकनीक वास्तव में सुलभ हो जाती है।

यह उल्लेखनीय है कि Hertz-Dev की संरचना में कई नवीनतम अनुकूलन तकनीकों का उपयोग किया गया है, जिससे यह सुनिश्चित होता है कि गणना के बोझ को कम करने के साथ-साथ आउटपुट गुणवत्ता उच्च स्तर पर बनी रहे। इसकी संचालन क्षमता स्वतंत्र डेवलपर्स, स्टार्टअप और बड़े संस्थानों को लागत को नियंत्रित करते हुए उच्च प्रदर्शन वाले अनुप्रयोगों को विकसित करने में सक्षम बनाती है। इस मॉडल का प्रदर्शन क्रांतिकारी है, यह मनुष्य और मशीन के बीच बातचीत को अधिक स्वाभाविक बनाता है, जो मनुष्य-से-मनुष्य संवाद के समान है।

वास्तविक समय ऑडियो प्रसंस्करण के व्यापक अनुप्रयोग संभावनाएँ हैं, जिसमें ग्राहक सहायता स्वचालन, इंटरएक्टिव AI साथी, और विशेष आवश्यकताओं वाले उपयोगकर्ताओं के लिए सहायक उपकरण प्रदान करना शामिल है। Hertz-Dev ने विलंब को 120 मिलीसेकंड के भीतर रखते हुए इंटरएक्टिव अनुभव को लगभग अदृश्य बना दिया है, जिससे AI की इंटरएक्टिविटी में सुधार होता है। प्रारंभिक परीक्षणों से पता चलता है कि पिछले ओपन-सोर्स मॉडल की तुलना में, Hertz-Dev प्रतिक्रिया समय में 40% तक की कमी कर सकता है। यह लचीलापन इसे विभिन्न परिदृश्यों के लिए उपयुक्त बनाता है, जैसे स्मार्ट होम वॉयस कंट्रोल से लेकर ग्राहक सेवा स्वचालन तक।

Standard Intelligence Lab द्वारा Hertz-Dev का लॉन्च निश्चित रूप से वास्तविक समय के संवाद AI के भविष्य में नई उम्मीद लाता है। यह न केवल एक उच्च पैरामीटर, उच्च प्रदर्शन वाला ओपन-सोर्स मॉडल है, बल्कि यह अधिक डेवलपर्स और शोधकर्ताओं को संवाद AI की अनंत संभावनाओं का पता लगाने का अवसर भी प्रदान करता है। जैसे-जैसे Hertz-Dev का व्यापक उपयोग बढ़ता है, हम एक अधिक तेज, सुविधाजनक और मानवीय कृत्रिम बुद्धिमत्ता युग के आगमन की उम्मीद कर सकते हैं।

परियोजना का प्रवेश द्वार: https://github.com/Standard-Intelligence/hertz-dev

विवरण: https://si.inc/hertz-dev/

मुख्य बिंदु:
🖥️ Hertz-Dev एक ओपन-सोर्स 850 मिलियन पैरामीटर ऑडियो मॉडल है, जिसका सैद्धांतिक विलंब केवल 80 मिलीसेकंड है, और वास्तविक विलंब 120 मिलीसेकंड है।
💡 यह मॉडल स्वतंत्र डेवलपर्स और शोधकर्ताओं को बिना विशाल हार्डवेयर समर्थन के उन्नत वास्तविक समय संवाद AI तकनीक का उपयोग करने की अनुमति देता है।
🚀 Hertz-Dev का व्यापक उपयोग ग्राहक सहायता, स्मार्ट होम और अन्य कई क्षेत्रों में कृत्रिम बुद्धिमत्ता के विकास को बढ़ावा देगा, जिससे मनुष्य और मशीन के बीच बातचीत अधिक स्वाभाविक हो जाएगी।

माइक्रोसॉफ्ट टीम ने मल्टीमॉडल एआई मॉडल मैग्मा को लॉन्च किया: दृश्य, भाषा और कार्रवाई निर्णय क्षमताओं का एकीकरण

हाल ही में, माइक्रोसॉफ्ट रिसर्च टीम ने कई विश्वविद्यालयों के शोधकर्ताओं के साथ मिलकर 'मैग्मा' नामक एक मल्टीमॉडल एआई मॉडल लॉन्च किया है। इस मॉडल का डिज़ाइन छवियाँ, पाठ और वीडियो जैसे विभिन्न डेटा प्रकारों को संसाधित और एकत्रित करने के लिए किया गया है, ताकि डिजिटल और भौतिक वातावरण में जटिल कार्यों को निष्पादित किया जा सके। तकनीक में निरंतर प्रगति के साथ, मल्टीमॉडल एआई एजेंटों का व्यापक रूप से रोबोटिक्स, वर्चुअल सहायकों और उपयोगकर्ता इंटरफ़ेस स्वचालन जैसे क्षेत्रों में उपयोग किया जा रहा है। पहले के एआई सिस्टम आमतौर पर दृष्टि-भाषा समझ या रोबोट संचालन पर केंद्रित होते थे, इन दोनों को एकीकृत करना कठिन होता था।

सैमसंग ने गैलेक्सी S25 के नए AI फ़ीचर्स की घोषणा की: स्मार्ट नोटिफिकेशन, प्राथमिकता वार्तालाप आदि

हाल की रिपोर्टों के अनुसार, सैमसंग का आगामी गैलेक्सी S25 एक ऐसा स्मार्टफोन होगा जो कृत्रिम बुद्धिमत्ता के केंद्र के रूप में और भी अधिक है। इस फोन में न केवल डिज़ाइन में नवाचार होगा, बल्कि इसकी अंतर्निहित बिक्सबी वर्चुअल सहायक और गैलेक्सी AI उपयोगकर्ता अनुभव को भारी तौर पर सुधारने में मदद करेंगे, विशेष रूप से नोटिफिकेशन सिस्टम के मामले में, उम्मीद है कि यह तीन प्रमुख AI-आधारित फ़ीचर सुधार लाएगा। सैमसंग का गैलेक्सी S25 कृत्रिम बुद्धिमत्ता तकनीक के माध्यम से उपयोगकर्ताओं के लिए नोटिफिकेशन सिस्टम में तीन प्रमुख सुधार लाएगा।

गूगल ने कस्टम चैटबॉट “Gem” का अनावरण किया, जिससे आप अपना विशेष एआई वर्चुअल सहायक बना सकते हैं

गूगल ने आधिकारिक रूप से घोषणा की है कि Gemini सब्सक्रिप्शन उपयोगकर्ता कस्टम चैटबॉट “Gem” बना सकते हैं, जो व्यक्तिगत आवश्यकताओं के अनुसार फिटनेस साथी, खाना पकाने के सहायक, लेखन संपादक आदि के रूप में कार्य कर सकते हैं। उपयोगकर्ता को केवल निर्देश का वर्णन करना है, जिससे वे बॉट को अनूठी व्यक्तिगतता और विशेषज्ञता प्रदान कर सकते हैं। गूगल ने इस सुविधा को पहली बार मई के I/O सम्मेलन में प्रस्तुत किया था, जैसे कि ज्ञानयुक्त, दोस्ताना और आकस्मिक Gem बनाना, जो बगीचे की योजना में मदद करता है। तैयार Gem में शिक्षण कोच, रचनात्मक मंथन, करियर मार्गदर्शन, प्रोग्रामिंग साथी और संपादक शामिल हैं। यह सुविधा Gemin के लिए उपलब्ध है।

Zyphra ने छोटे भाषा मॉडल Zamba2-2.7B को लॉन्च किया: गति दोगुनी, मेमोरी लागत 27% कम

Zyphra कंपनी ने Zamba2-2.7B भाषा मॉडल लॉन्च किया, जो छोटे भाषा मॉडल के क्षेत्र में एक मील का पत्थर है। इसके प्रदर्शन और दक्षता में उल्लेखनीय सुधार हुआ है, और प्रशिक्षण डेटा सेट का आकार लगभग 30 ट्रिलियन टोकन्स तक पहुंच गया है, जिससे इसकी संसाधन आवश्यकता में कमी आई है और यह मोबाइल उपकरणों के लिए एक कुशल समाधान बन गया है। महत्वपूर्ण विशेषताएं शामिल हैं: पहली बार में प्रतिक्रिया समय में दो गुना वृद्धि, मेमोरी उपयोग में 27% की कमी, और निर्माण की देरी में 1.29 गुना की कमी, विशेष रूप से रियल-टाइम इंटरैक्टिव वर्चुअल असिस्टेंट, चैटबॉट्स आदि अनुप्रयोगों के लिए उपयुक्त। Zamba2-2.

AI समाचार

नई ओपन-सोर्स ऑडियो मॉडल Hertz-Dev: अल्ट्रा-लो लैटेंसी, एआई वास्तविक समय संवाद को सक्षम करना

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

माइक्रोसॉफ्ट टीम ने मल्टीमॉडल एआई मॉडल मैग्मा को लॉन्च किया: दृश्य, भाषा और कार्रवाई निर्णय क्षमताओं का एकीकरण

सैमसंग ने गैलेक्सी S25 के नए AI फ़ीचर्स की घोषणा की: स्मार्ट नोटिफिकेशन, प्राथमिकता वार्तालाप आदि

गूगल ने कस्टम चैटबॉट “Gem” का अनावरण किया, जिससे आप अपना विशेष एआई वर्चुअल सहायक बना सकते हैं

Zyphra ने छोटे भाषा मॉडल Zamba2-2.7B को लॉन्च किया: गति दोगुनी, मेमोरी लागत 27% कम