वेस्टलेक-ओम्नि: 西湖心辰 का खुला स्रोत चीनी भावनात्मक अंत-से-अंत वॉयस मॉडल

AIbase基地

द्वारा प्रकाशितAI समाचार · 2 मिनट पढ़ें · Sep 26, 2024

425

वेस्टलेक-ओम्नी मॉडल के विकास की घोषणा करते हुए, 西湖心辰 ने इसे ओपन-सोर्स करने की घोषणा की है। यह वैश्विक स्तर पर पहला ओपन-सोर्स चीनी भावनात्मक एंड-टू-एंड वॉयस इंटरएक्शन बड़ा मॉडल है, जो टेक्स्ट और वॉयस मोड को एकीकृत करने के लिए डिस्क्रीट रिप्रेजेंटेशन का उपयोग करता है, खासकर रियल-टाइम पर ध्यान केंद्रित करता है, जो तेजी से प्रतिक्रिया देने और लगभग शून्य विलंबता का अनुभव प्रदान करने में सक्षम है।

यह मॉडल उत्कृष्ट भावनात्मक समझ और अभिव्यक्ति क्षमताओं से लैस है, जो स्पष्ट, प्राकृतिक और अभिव्यक्तिपूर्ण चीनी वॉयस उत्पन्न कर सकता है। यह क्षमता उच्च गुणवत्ता वाले चीनी भावनात्मक वॉयस डेटा सेट पर गहन प्रशिक्षण का परिणाम है, जिससे मॉडल न केवल चीनी संदर्भ में जटिल भावनाओं को समझ सकता है, बल्कि इंटरएक्शन को भी अधिक मानवकृत बना सकता है।

微信截图_20240926081503.png

西湖心辰 उम्मीद करता है कि वेस्टलेक-ओम्नी मॉडल को ओपन-सोर्स करके, अधिक डेवलपर्स को चीनी भावनात्मक वॉयस इंटरएक्शन तकनीक के विकास में भाग लेने के लिए प्रेरित किया जा सकेगा, ताकि इस क्षेत्र की तकनीक के विकास और अनुप्रयोग को एक साथ आगे बढ़ाया जा सके।

प्रोजेक्ट पता:https://github.com/xinchen-ai/Westlake-Omni

चीतूप खुला स्रोत पाठ-से-चित्र मॉडल CogView4 चीनी और अंग्रेजी दोनों भाषाओं में संकेत शब्दों का समर्थन करता है

चीतूप AI का नवीनतम खुला स्रोत पाठ-से-चित्र मॉडल CogView4 आधिकारिक तौर पर लॉन्च किया गया है। CogView4 न केवल 60 करोड़ पैरामीटर तक पहुँच गया है, बल्कि यह चीनी इनपुट और चीनी पाठ से छवि निर्माण का भी पूरी तरह से समर्थन करता है, जिसे पहला खुला स्रोत मॉडल कहा जाता है जो चित्र में चीनी अक्षर उत्पन्न कर सकता है। CogView4 चीनी और अंग्रेजी दोनों भाषाओं में संकेत शब्दों के इनपुट का समर्थन करने को अपनी मुख्य विशेषता के रूप में प्रस्तुत करता है, खासकर जटिल चीनी निर्देशों को समझने और उनका पालन करने में कुशल है, जो चीनी सामग्री निर्माताओं के लिए एक वरदान है। चित्रों में चीनी अक्षर उत्पन्न करने वाला पहला खुला स्रोत पाठ-से-चित्र मॉडल होने के नाते, इसने खुले स्रोत क्षेत्र में एक बड़ी खामी को पूरा किया है।

चीज़ू ने पहला खुला स्रोत पाठ-से-चित्र मॉडल CogView4 जारी किया जो चीनी वर्ण उत्पन्न कर सकता है

बीजिंग चिज्झू हुआझांग टेक्नोलॉजी कंपनी लिमिटेड ने चीनी वर्ण उत्पन्न करने में सक्षम पहला खुला स्रोत पाठ-से-चित्र मॉडल - CogView4 लॉन्च करने की घोषणा की है। यह मॉडल DPG-बेंच बेंचमार्क टेस्ट में शीर्ष रैंक पर है, जो खुले स्रोत पाठ-से-चित्र मॉडल में SOTA (स्टेट ऑफ़ द आर्ट) बन गया है, और यह Apache2.0 लाइसेंस का अनुसरण करता है, जो इस लाइसेंस का पालन करने वाला पहला छवि निर्माण मॉडल है।

अली टोंगयी प्रयोगशाला ने खुला स्रोत दृश्य दस्तावेज़ RAG प्रणाली ViDoRAG जारी की, जिसकी सटीकता 79.4% तक पहुँच गई है

अलीबाबा के टोंगयी प्रयोगशाला ने हाल ही में ViDoRAG नामक एक खुला स्रोत दृश्य दस्तावेज़ RAG प्रणाली जारी की है। इस प्रणाली की सटीकता 79.4% तक पहुँच गई है, जो इसे इस क्षेत्र में एक अग्रणी प्रणाली बनाती है।

अलीबाबा के सीईओ吴泳铭: एआई युग में अलीबाबा खुला स्रोत और ओपन-एंडेड बने रहेंगे

2024 की विश्व इंटरनेट सम्मेलन में, अलीबाबा समूह के सीईओ吴泳铭 ने एआई युग में कंपनी की रणनीति पर एक भाषण दिया। 吴泳铭 ने指出 कि अलीबाबा दो प्रमुख चीजों पर ध्यान केंद्रित करेगा: पहले, कृत्रिम बुद्धिमत्ता की आधारभूत संरचना और संबंधित समर्थन प्रणाली को निरंतर परिष्कृत करना; और दूसरा, ओपन-सोर्स और ओपन-एंडेड रहने के लिए पारिस्थितिक साझेदारों के साथ सहयोग करना, ताकि एआई क्षमताओं को विभिन्न उद्योगों की उत्पादकता में बदल सकें।