【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आपके लिए हर दिन कृत्रिम बुद्धिमत्ता की दुनिया की खोज का मार्गदर्शन है, हर दिन हम आपको AI क्षेत्र की प्रमुख सामग्री प्रस्तुत करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, ताकि आप तकनीकी प्रवृत्तियों को समझ सकें और नवाचार AI उत्पादों के अनुप्रयोगों को जान सकें।

ताज़ा AI उत्पादजानने के लिए क्लिक करेंhttps://top.aibase.com/

1、InstantX छवि निर्माण की काली तकनीक! FLUX द्वारा उत्पन्न छवियों के प्रत्येक क्षेत्र की सामग्री को सटीक रूप से नियंत्रित किया जा सकता है

AI चित्रण के क्षेत्र में, InstantX द्वारा पेश की गई Regional-Prompting-FLUX तकनीक ने अभूतपूर्व उच्च सटीकता हासिल की है, जिससे रचनाकारों को चित्र सामग्री को बारीकी से नियंत्रित करने की अनुमति मिलती है और नई रचनात्मक संभावनाओं का विस्तार होता है। इस तकनीक की क्रांतिकारी विशेषता इसकी शक्तिशाली क्षेत्र नियंत्रण क्षमता है, जो मजबूत संगतता, सरल और स्पष्ट संचालन, और अत्यधिक विस्तारशीलता के साथ आती है। FLUX ने AI चित्रण को एक अधिक स्वतंत्र, लचीला, और कुशल रचनात्मक मंच प्रदान किया है।

image.png

【AiBase सारांश:】

⚙️ FLUX तकनीक ने उच्च सटीकता को साकार किया, जिससे रचनाकारों को चित्र सामग्री को बारीकी से नियंत्रित करने की सुविधा मिली है, और रचनात्मक संभावनाओं का विस्तार हुआ है।

🎨 FLUX में शक्तिशाली क्षेत्र नियंत्रण क्षमता है, जो विभिन्न शैली क्षेत्रों के परिपूर्ण संयोजन को संभव बनाती है।

💡 FLUX गति, संगतता और संचालन की सरलता में उत्कृष्टता प्राप्त करता है, जिससे छवि निर्माण में नई संभावनाएँ उत्पन्न होती हैं।

विवरण लिंक: https://github.com/instantX-research/Regional-Prompting-FLUX

2、अत्यधिक तेज़ पाठ से वॉयस मॉडल Lightning: अत्यंत कम विलंबता, 100 मिलीसेकंड में 10 सेकंड ऑडियो उत्पन्न करता है

हाल ही में लॉन्च किया गया AI पाठ से वॉयस मॉडल Lightning 100 मिलीसेकंड में 10 सेकंड ऑडियो उत्पन्न करता है, जिससे वॉयस रोबोट के विकास की लागत में काफी कमी आती है और इसकी पहुंच बढ़ती है। यह विभिन्न भाषाओं के उच्चारण का समर्थन करता है और इसकी कीमत बहुत प्रभावी है।

image.png

【AiBase सारांश:】

🚀 गति और दक्षता। Lightning मॉडल 100 मिलीसेकंड में 10 सेकंड ऑडियो उत्पन्न करता है, जिससे तात्कालिक वॉयस सिंथेसिस संभव होता है, जो तेज़ प्रतिक्रिया की आवश्यकता को पूरा करता है।

💰 कम लागत, उच्च दक्षता। प्रति मिनट केवल 0.02 डॉलर की लागत, जो वॉयस रोबोट के विकासकर्ताओं के संचालन खर्च को काफी कम करती है।

📱 बहुपरकारी अनुप्रयोग। वॉयस रोबोट के अलावा, इसे ऑडियोबुक और सोशल मीडिया वॉयसओवर के लिए भी उपयोग किया जा सकता है, जिससे डेवलपर्स और गैर-डेवलपर्स दोनों के लिए उपयोग में आसानी होती है।

विवरण लिंक: https://smallest.ai/blog/lightning-fast-text-to-speech

3、क्या काले मिथक वु कोंग को भी AI द्वारा उत्पन्न किया जा सकता है? GameGen-X ने गेम विकास में क्रांति ला दी, पारंपरिक गेम डोल रहा है!

GameGen-X मॉडल को हांगकांग विश्वविद्यालय, चीनी विज्ञान और प्रौद्योगिकी विश्वविद्यालय आदि संस्थानों के शोधकर्ताओं द्वारा जारी किया गया है, जो ओपन वर्ल्ड गेम वीडियो के निर्माण और इंटरैक्टिव नियंत्रण के लिए विशेष रूप से डिज़ाइन किया गया एक विस्फोटक परिवर्तनकारी मॉडल है। यह मॉडल स्वचालित रूप से ओपन वर्ल्ड गेम वीडियो उत्पन्न कर सकता है, गेम इंजन की कार्यक्षमता का अनुकरण करता है, पात्रों की बातचीत और दृश्य सामग्री नियंत्रण को साकार करता है, और गेम विकास में नई संभावनाएँ लाता है। हालाँकि यह अभी भी प्रारंभिक चरण में है, लेकिन पारंपरिक रेंडरिंग तकनीक के सहायक उपकरण के रूप में उत्पन्न मॉडल की क्षमता को प्रदर्शित करता है।

【AiBase सारांश:】

⚙️ GameGen-X मॉडल ओपन वर्ल्ड गेम वीडियो उत्पन्न कर सकता है, गेम इंजन की कार्यक्षमता का अनुकरण करता है, पात्रों की बातचीत और दृश्य सामग्री नियंत्रण को साकार करता है।

💡 GameGen-X ने बड़े ओपन वर्ल्ड गेम वीडियो डेटा सेट OGameData का उपयोग करके प्रशिक्षित किया है, जिससे उच्च गुणवत्ता वाले गेम सामग्री निर्माण और इंटरैक्टिव नियंत्रण की संभावना प्राप्त की जा सके।

🎮 GameGen-X ने उत्कृष्टता प्रदर्शित की है, उत्कृष्ट वातावरण और पात्र नियंत्रण क्षमताएँ प्रदान की हैं, जो भविष्य के गेम विकास में नई संभावनाएँ लाएगी।

विवरण लिंक: https://gamegen-x.github.io/

4、AI का नया ढांचा HelloMeme: विभिन्न छवियों के बीच भावनाओं का स्थानांतरण अत्यधिक वास्तविकता में

HelloMeme ढांचे ने अद्वितीय नेटवर्क संरचना और Animatediff मॉड्यूल के माध्यम से वीडियो निर्माण की चिकनाई और चित्र गुणवत्ता में सुधार किया है। यह ढांचा ARKit Face Blendshapes का समर्थन करता है, जिससे उपयोगकर्ताओं को पात्रों के चेहरे के भावों को लचीले ढंग से नियंत्रित करने की अनुमति मिलती है, और वीडियो सामग्री की अभिव्यक्ति को समृद्ध करता है। यह हॉट प्लग अनुकूलक डिज़ाइन का उपयोग करता है, जिससे SD1.5 के आधार पर अन्य मॉडलों के साथ संगतता सुनिश्चित होती है, जिससे रचनात्मकता में अधिक लचीलापन मिलता है।

【AiBase सारांश:】

🌐 HelloMeme ने अद्वितीय नेटवर्क संरचना और Animatediff मॉड्यूल के माध्यम से वीडियो निर्माण की चिकनाई और चित्र गुणवत्ता में सुधार किया है।

🎭 ढांचा ARKit Face Blendshapes का समर्थन करता है, जिससे उपयोगकर्ताओं को पात्रों के चेहरे के भावों को लचीले ढंग से नियंत्रित करने की अनुमति मिलती है, और वीडियो सामग्री की अभिव्यक्ति को समृद्ध करता है।

⚙️ यह हॉट प्लग अनुकूलक डिज़ाइन का उपयोग करता है, जिससे SD1.5 के आधार पर अन्य मॉडलों के साथ संगतता सुनिश्चित होती है, जिससे रचनात्मकता में अधिक लचीलापन मिलता है।

विवरण लिंक: https://songkey.github.io/hellomeme/

5、OuteTTS-0.1-350M: एक नवीनतम पाठ से वॉयस संश्लेषण विधि

Oute AI ने हाल ही में OuteTTS-0.1-350M नामक एक पाठ से वॉयस संश्लेषण विधि जारी की है, जो शुद्ध भाषा मॉडलिंग का उपयोग करती है, TTS विधियों को सरल बनाती है, और शून्य नमूना वॉयस क्लोनिंग की क्षमता प्रदान करती है, जो व्यापक अनुप्रयोग क्षेत्रों के लिए उपयुक्त है। यह विधि LLaMa आर्किटेक्चर पर आधारित है, जो ऑडियो टोकन उत्पन्न करने के लिए WavTokenizer का उपयोग करती है, और इसकी प्रदर्शन क्षमता बड़ी और अधिक जटिल TTS प्रणालियों के साथ प्रतिस्पर्धा कर सकती है, जिसमें उच्च दक्षता और पहुंच है।

【AiBase सारांश:】

⚙️ OuteTTS-0.1-350M शुद्ध भाषा मॉडलिंग का उपयोग करता है, बिना किसी बाहरी अनुकूलक की आवश्यकता के, सरलित TTS विधि प्रदान करता है।

🔊 OuteTTS-0.1-350M सीधे ऑडियो टोकन उत्पन्न करने के लिए WavTokenizer का उपयोग करता है, जिससे प्रक्रिया अधिक कुशल होती है।

💡 OuteTTS-0.1-350M शून्य नमूना वॉयस क्लोनिंग की क्षमता रखता है, जो llama.cpp के साथ संगत है, और वास्तविक समय के अनुप्रयोगों के लिए उपयुक्त है।

विवरण लिंक: https://www.outeai.com/blog/OuteTTS-0.1-350M

6、CMU और Meta ने एक बड़ा कदम उठाया! VQAScore एक प्रश्न से पाठ-से-छवि मॉडल का मूल्यांकन करता है, सटीकता पारंपरिक विधियों से बहुत अधिक है!

उत्पादक AI तेजी से विकसित हो रहा है, लेकिन इसके प्रदर्शन का समग्र मूल्यांकन हमेशा एक चुनौती रहा है। हाल ही में, कार्नेगी मेलॉन विश्वविद्यालय और Meta ने VQAScore मूल्यांकन योजना पेश की है, जो दृश्य प्रश्न-उत्तर मॉडल स्कोरिंग का उपयोग करती है, और सटीकता पारंपरिक विधियों को पार कर गई है। नया मूल्यांकन मानक GenAI-Bench उत्पादक AI मॉडल के विकास को बढ़ावा देता है, और अधिक व्यापक और चुनौतीपूर्ण मूल्यांकन प्रदान करता है। VQAScore में सीमाएँ हैं, लेकिन जैसे-जैसे VQA मॉडल में प्रगति होती है, प्रदर्शन में सुधार होगा।

image.png

【AiBase सारांश:】

🔍 VQAScore मूल्यांकन योजना दृश्य प्रश्न-उत्तर मॉडल का उपयोग करके पाठ-से-छवि मॉडल को स्कोर करती है, और सटीकता पारंपरिक विधियों को पार कर जाती है।

🚀 GenAI-Bench मूल्यांकन मानक पाठ-से-छवि मॉडल के विकास को बढ़ावा देता है, और अधिक व्यापक और चुनौतीपूर्ण मूल्यांकन प्रदान करता है।

💡 VQAScore में सीमाएँ हैं, लेकिन जैसे-जैसे VQA मॉडल में प्रगति होती है, प्रदर्शन में सुधार होगा।

विवरण लिंक: https://linzhiqiu.github.io/papers/vqascore/

7、चीन की टीम ने दुनिया का सबसे बड़ा मल्टीमॉडल डेटा सेट "Infinity-MM" और शीर्ष माइक्रो AI मॉडल "Aquila-VL-2B" पेश किया

हाल ही में, चीन के शोधकर्ताओं की टीम ने "Infinity-MM" डेटा सेट सफलतापूर्वक बनाया, और एक उत्कृष्ट छोटे नए मॉडल "Aquila-VL-2B" को प्रशिक्षित किया। यह कदम ओपन-सोर्स मॉडल के AI अनुसंधान में पारंपरिक बंद-स्रोत सिस्टम को धीरे-धीरे पछाड़ने के प्रवृत्ति का प्रतीक है, विशेष रूप से संश्लेषण प्रशिक्षण डेटा के उपयोग में अच्छे भविष्य की संभावनाएँ प्रदर्शित करता है।

image.png

【AiBase सारांश:】

🌐 डेटा सेट "Infinity-MM" में 10 मिलियन छवि विवरण और 24.4 मिलियन दृश्य निर्देश डेटा शामिल हैं।

💡 नया मॉडल Aquila-VL-2B कई मानक परीक्षणों में उत्कृष्ट प्रदर्शन करता है, और समान मॉडल के रिकॉर्ड तोड़ता है।

📈 संश्लेषित डेटा का उपयोग मॉडल प्रदर्शन में महत्वपूर्ण सुधार लाता है, और शोध टीम ने डेटा सेट और मॉडल को समुदाय के लिए खोलने का निर्णय लिया है।

विवरण लिंक: https://arxiv.org/abs/2410.18558

8、AI लहर के तहत लाभार्थी! NVIDIA ने Apple को पीछे छोड़ दिया, और वैश्विक बाजार मूल्य में सबसे ऊपर आ गया

हाल के शेयर बाजार के लेन-देन में, NVIDIA ने कृत्रिम बुद्धिमत्ता के क्षेत्र में अपनी मजबूत प्रदर्शन के कारण Apple को पीछे छोड़ दिया, और वैश्विक बाजार मूल्य में सबसे ऊपर आ गया। यह परिवर्तन इस बात का प्रतीक है कि NVIDIA ने 2022 के अंत से 850% की आश्चर्यजनक वृद्धि की है, जो मजबूत बाजार प्रदर्शन को दर्शाता है। NVIDIA की कृत्रिम बुद्धिमत्ता की लहर में महत्वपूर्ण स्थिति को फिर से मान्यता मिली है।

【AiBase सारांश:】

🌟 NVIDIA का बाजार मूल्य 3.43 ट्रिलियन डॉलर तक पहुंच गया, Apple को पीछे छोड़कर वैश्विक बाजार मूल्य में सबसे ऊपर आ गया।

📈 2022 के अंत से NVIDIA के शेयर की कीमत में 850% की वृद्धि हुई है, जो मजबूत बाजार प्रदर्शन को दर्शाता है।

🤖 Apple भी कृत्रिम बुद्धिमत्ता के क्षेत्र में प्रयास कर रहा है, लेकिन NVIDIA अभी भी शीर्ष बड़े भाषा मॉडल का प्रमुख समर्थक है।

9、Microsoft ने Magnetic-One सिस्टम पेश किया: कई बुद्धिमान एजेंटों के सहयोग से दैनिक कार्यों को पूरा करना

Microsoft द्वारा हाल ही में लॉन्च किया गया Magnetic-One सिस्टम एक बहु-एजेंट ढांचा है, जिसका उद्देश्य व्यक्तिगत और व्यावसायिक कार्यकुशलता को बढ़ाना है। यह सिस्टम एक AI मॉडल को कई सहायक एजेंटों को संचालित करने की अनुमति देता है, जो जटिल बहु-चरण कार्यों को सहयोग से पूरा करते हैं। Microsoft ने विकास के लिए OpenAI के GPT-4o का उपयोग किया है, लेकिन सिस्टम बड़े भाषा मॉडल से स्वतंत्र है, और शक्तिशाली निष्कर्षण मॉडल का उपयोग करने की सिफारिश की जाती है।

image.png

【AiBase सारांश:】

🌟 Magnetic-One सिस्टम: Microsoft द्वारा पेश किया गया एक बहु-एजेंट ढांचा, जिसका उद्देश्य उत्पादकता बढ़ाना और दैनिक कार्यों को स्वचालित करना है।

🤖 कई बुद्धिमान एजेंटों की भूमिकाएँ: जिसमें कमांडर, वेब ब्राउज़िंग, फ़ाइल ब्राउज़िंग, कोड लेखन आदि शामिल हैं, जो सहयोग से काम करते हैं।

📈 ओपन-सोर्स साझा: Magnetic-One डेवलपर्स को ओपन-सोर्स ढांचा प्रदान करता है, जिससे एजेंटों के लचीले अनुप्रयोग और मूल्यांकन को बढ़ावा मिलता है।

विवरण लिंक: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/