【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आपके लिए हर दिन कृत्रिम बुद्धिमत्ता की दुनिया की खोज का मार्गदर्शन है, हर दिन हम आपको AI क्षेत्र की प्रमुख सामग्री प्रस्तुत करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, ताकि आप तकनीकी प्रवृत्तियों को समझ सकें और नवाचार AI उत्पादों के अनुप्रयोगों को जान सकें।
ताज़ा AI उत्पादजानने के लिए क्लिक करें:https://top.aibase.com/
1、InstantX छवि निर्माण की काली तकनीक! FLUX द्वारा उत्पन्न छवियों के प्रत्येक क्षेत्र की सामग्री को सटीक रूप से नियंत्रित किया जा सकता है
AI चित्रण के क्षेत्र में, InstantX द्वारा पेश की गई Regional-Prompting-FLUX तकनीक ने अभूतपूर्व उच्च सटीकता हासिल की है, जिससे रचनाकारों को चित्र सामग्री को बारीकी से नियंत्रित करने की अनुमति मिलती है और नई रचनात्मक संभावनाओं का विस्तार होता है। इस तकनीक की क्रांतिकारी विशेषता इसकी शक्तिशाली क्षेत्र नियंत्रण क्षमता है, जो मजबूत संगतता, सरल और स्पष्ट संचालन, और अत्यधिक विस्तारशीलता के साथ आती है। FLUX ने AI चित्रण को एक अधिक स्वतंत्र, लचीला, और कुशल रचनात्मक मंच प्रदान किया है।
【AiBase सारांश:】
⚙️ FLUX तकनीक ने उच्च सटीकता को साकार किया, जिससे रचनाकारों को चित्र सामग्री को बारीकी से नियंत्रित करने की सुविधा मिली है, और रचनात्मक संभावनाओं का विस्तार हुआ है।
🎨 FLUX में शक्तिशाली क्षेत्र नियंत्रण क्षमता है, जो विभिन्न शैली क्षेत्रों के परिपूर्ण संयोजन को संभव बनाती है।
💡 FLUX गति, संगतता और संचालन की सरलता में उत्कृष्टता प्राप्त करता है, जिससे छवि निर्माण में नई संभावनाएँ उत्पन्न होती हैं।
विवरण लिंक: https://github.com/instantX-research/Regional-Prompting-FLUX
2、अत्यधिक तेज़ पाठ से वॉयस मॉडल Lightning: अत्यंत कम विलंबता, 100 मिलीसेकंड में 10 सेकंड ऑडियो उत्पन्न करता है
हाल ही में लॉन्च किया गया AI पाठ से वॉयस मॉडल Lightning 100 मिलीसेकंड में 10 सेकंड ऑडियो उत्पन्न करता है, जिससे वॉयस रोबोट के विकास की लागत में काफी कमी आती है और इसकी पहुंच बढ़ती है। यह विभिन्न भाषाओं के उच्चारण का समर्थन करता है और इसकी कीमत बहुत प्रभावी है।
【AiBase सारांश:】
🚀 गति और दक्षता। Lightning मॉडल 100 मिलीसेकंड में 10 सेकंड ऑडियो उत्पन्न करता है, जिससे तात्कालिक वॉयस सिंथेसिस संभव होता है, जो तेज़ प्रतिक्रिया की आवश्यकता को पूरा करता है।
💰 कम लागत, उच्च दक्षता। प्रति मिनट केवल 0.02 डॉलर की लागत, जो वॉयस रोबोट के विकासकर्ताओं के संचालन खर्च को काफी कम करती है।
📱 बहुपरकारी अनुप्रयोग। वॉयस रोबोट के अलावा, इसे ऑडियोबुक और सोशल मीडिया वॉयसओवर के लिए भी उपयोग किया जा सकता है, जिससे डेवलपर्स और गैर-डेवलपर्स दोनों के लिए उपयोग में आसानी होती है।
विवरण लिंक: https://smallest.ai/blog/lightning-fast-text-to-speech
3、क्या काले मिथक वु कोंग को भी AI द्वारा उत्पन्न किया जा सकता है? GameGen-X ने गेम विकास में क्रांति ला दी, पारंपरिक गेम डोल रहा है!
GameGen-X मॉडल को हांगकांग विश्वविद्यालय, चीनी विज्ञान और प्रौद्योगिकी विश्वविद्यालय आदि संस्थानों के शोधकर्ताओं द्वारा जारी किया गया है, जो ओपन वर्ल्ड गेम वीडियो के निर्माण और इंटरैक्टिव नियंत्रण के लिए विशेष रूप से डिज़ाइन किया गया एक विस्फोटक परिवर्तनकारी मॉडल है। यह मॉडल स्वचालित रूप से ओपन वर्ल्ड गेम वीडियो उत्पन्न कर सकता है, गेम इंजन की कार्यक्षमता का अनुकरण करता है, पात्रों की बातचीत और दृश्य सामग्री नियंत्रण को साकार करता है, और गेम विकास में नई संभावनाएँ लाता है। हालाँकि यह अभी भी प्रारंभिक चरण में है, लेकिन पारंपरिक रेंडरिंग तकनीक के सहायक उपकरण के रूप में उत्पन्न मॉडल की क्षमता को प्रदर्शित करता है।
【AiBase सारांश:】
⚙️ GameGen-X मॉडल ओपन वर्ल्ड गेम वीडियो उत्पन्न कर सकता है, गेम इंजन की कार्यक्षमता का अनुकरण करता है, पात्रों की बातचीत और दृश्य सामग्री नियंत्रण को साकार करता है।
💡 GameGen-X ने बड़े ओपन वर्ल्ड गेम वीडियो डेटा सेट OGameData का उपयोग करके प्रशिक्षित किया है, जिससे उच्च गुणवत्ता वाले गेम सामग्री निर्माण और इंटरैक्टिव नियंत्रण की संभावना प्राप्त की जा सके।
🎮 GameGen-X ने उत्कृष्टता प्रदर्शित की है, उत्कृष्ट वातावरण और पात्र नियंत्रण क्षमताएँ प्रदान की हैं, जो भविष्य के गेम विकास में नई संभावनाएँ लाएगी।
विवरण लिंक: https://gamegen-x.github.io/
4、AI का नया ढांचा HelloMeme: विभिन्न छवियों के बीच भावनाओं का स्थानांतरण अत्यधिक वास्तविकता में
HelloMeme ढांचे ने अद्वितीय नेटवर्क संरचना और Animatediff मॉड्यूल के माध्यम से वीडियो निर्माण की चिकनाई और चित्र गुणवत्ता में सुधार किया है। यह ढांचा ARKit Face Blendshapes का समर्थन करता है, जिससे उपयोगकर्ताओं को पात्रों के चेहरे के भावों को लचीले ढंग से नियंत्रित करने की अनुमति मिलती है, और वीडियो सामग्री की अभिव्यक्ति को समृद्ध करता है। यह हॉट प्लग अनुकूलक डिज़ाइन का उपयोग करता है, जिससे SD1.5 के आधार पर अन्य मॉडलों के साथ संगतता सुनिश्चित होती है, जिससे रचनात्मकता में अधिक लचीलापन मिलता है।
【AiBase सारांश:】
🌐 HelloMeme ने अद्वितीय नेटवर्क संरचना और Animatediff मॉड्यूल के माध्यम से वीडियो निर्माण की चिकनाई और चित्र गुणवत्ता में सुधार किया है।
🎭 ढांचा ARKit Face Blendshapes का समर्थन करता है, जिससे उपयोगकर्ताओं को पात्रों के चेहरे के भावों को लचीले ढंग से नियंत्रित करने की अनुमति मिलती है, और वीडियो सामग्री की अभिव्यक्ति को समृद्ध करता है।
⚙️ यह हॉट प्लग अनुकूलक डिज़ाइन का उपयोग करता है, जिससे SD1.5 के आधार पर अन्य मॉडलों के साथ संगतता सुनिश्चित होती है, जिससे रचनात्मकता में अधिक लचीलापन मिलता है।
विवरण लिंक: https://songkey.github.io/hellomeme/
5、OuteTTS-0.1-350M: एक नवीनतम पाठ से वॉयस संश्लेषण विधि
Oute AI ने हाल ही में OuteTTS-0.1-350M नामक एक पाठ से वॉयस संश्लेषण विधि जारी की है, जो शुद्ध भाषा मॉडलिंग का उपयोग करती है, TTS विधियों को सरल बनाती है, और शून्य नमूना वॉयस क्लोनिंग की क्षमता प्रदान करती है, जो व्यापक अनुप्रयोग क्षेत्रों के लिए उपयुक्त है। यह विधि LLaMa आर्किटेक्चर पर आधारित है, जो ऑडियो टोकन उत्पन्न करने के लिए WavTokenizer का उपयोग करती है, और इसकी प्रदर्शन क्षमता बड़ी और अधिक जटिल TTS प्रणालियों के साथ प्रतिस्पर्धा कर सकती है, जिसमें उच्च दक्षता और पहुंच है।
【AiBase सारांश:】
⚙️ OuteTTS-0.1-350M शुद्ध भाषा मॉडलिंग का उपयोग करता है, बिना किसी बाहरी अनुकूलक की आवश्यकता के, सरलित TTS विधि प्रदान करता है।
🔊 OuteTTS-0.1-350M सीधे ऑडियो टोकन उत्पन्न करने के लिए WavTokenizer का उपयोग करता है, जिससे प्रक्रिया अधिक कुशल होती है।
💡 OuteTTS-0.1-350M शून्य नमूना वॉयस क्लोनिंग की क्षमता रखता है, जो llama.cpp के साथ संगत है, और वास्तविक समय के अनुप्रयोगों के लिए उपयुक्त है।
विवरण लिंक: https://www.outeai.com/blog/OuteTTS-0.1-350M
6、CMU और Meta ने एक बड़ा कदम उठाया! VQAScore एक प्रश्न से पाठ-से-छवि मॉडल का मूल्यांकन करता है, सटीकता पारंपरिक विधियों से बहुत अधिक है!
उत्पादक AI तेजी से विकसित हो रहा है, लेकिन इसके प्रदर्शन का समग्र मूल्यांकन हमेशा एक चुनौती रहा है। हाल ही में, कार्नेगी मेलॉन विश्वविद्यालय और Meta ने VQAScore मूल्यांकन योजना पेश की है, जो दृश्य प्रश्न-उत्तर मॉडल स्कोरिंग का उपयोग करती है, और सटीकता पारंपरिक विधियों को पार कर गई है। नया मूल्यांकन मानक GenAI-Bench उत्पादक AI मॉडल के विकास को बढ़ावा देता है, और अधिक व्यापक और चुनौतीपूर्ण मूल्यांकन प्रदान करता है। VQAScore में सीमाएँ हैं, लेकिन जैसे-जैसे VQA मॉडल में प्रगति होती है, प्रदर्शन में सुधार होगा।
【AiBase सारांश:】
🔍 VQAScore मूल्यांकन योजना दृश्य प्रश्न-उत्तर मॉडल का उपयोग करके पाठ-से-छवि मॉडल को स्कोर करती है, और सटीकता पारंपरिक विधियों को पार कर जाती है।
🚀 GenAI-Bench मूल्यांकन मानक पाठ-से-छवि मॉडल के विकास को बढ़ावा देता है, और अधिक व्यापक और चुनौतीपूर्ण मूल्यांकन प्रदान करता है।
💡 VQAScore में सीमाएँ हैं, लेकिन जैसे-जैसे VQA मॉडल में प्रगति होती है, प्रदर्शन में सुधार होगा।
विवरण लिंक: https://linzhiqiu.github.io/papers/vqascore/
7、चीन की टीम ने दुनिया का सबसे बड़ा मल्टीमॉडल डेटा सेट "Infinity-MM" और शीर्ष माइक्रो AI मॉडल "Aquila-VL-2B" पेश किया
हाल ही में, चीन के शोधकर्ताओं की टीम ने "Infinity-MM" डेटा सेट सफलतापूर्वक बनाया, और एक उत्कृष्ट छोटे नए मॉडल "Aquila-VL-2B" को प्रशिक्षित किया। यह कदम ओपन-सोर्स मॉडल के AI अनुसंधान में पारंपरिक बंद-स्रोत सिस्टम को धीरे-धीरे पछाड़ने के प्रवृत्ति का प्रतीक है, विशेष रूप से संश्लेषण प्रशिक्षण डेटा के उपयोग में अच्छे भविष्य की संभावनाएँ प्रदर्शित करता है।
【AiBase सारांश:】
🌐 डेटा सेट "Infinity-MM" में 10 मिलियन छवि विवरण और 24.4 मिलियन दृश्य निर्देश डेटा शामिल हैं।
💡 नया मॉडल Aquila-VL-2B कई मानक परीक्षणों में उत्कृष्ट प्रदर्शन करता है, और समान मॉडल के रिकॉर्ड तोड़ता है।
📈 संश्लेषित डेटा का उपयोग मॉडल प्रदर्शन में महत्वपूर्ण सुधार लाता है, और शोध टीम ने डेटा सेट और मॉडल को समुदाय के लिए खोलने का निर्णय लिया है।
विवरण लिंक: https://arxiv.org/abs/2410.18558
8、AI लहर के तहत लाभार्थी! NVIDIA ने Apple को पीछे छोड़ दिया, और वैश्विक बाजार मूल्य में सबसे ऊपर आ गया
हाल के शेयर बाजार के लेन-देन में, NVIDIA ने कृत्रिम बुद्धिमत्ता के क्षेत्र में अपनी मजबूत प्रदर्शन के कारण Apple को पीछे छोड़ दिया, और वैश्विक बाजार मूल्य में सबसे ऊपर आ गया। यह परिवर्तन इस बात का प्रतीक है कि NVIDIA ने 2022 के अंत से 850% की आश्चर्यजनक वृद्धि की है, जो मजबूत बाजार प्रदर्शन को दर्शाता है। NVIDIA की कृत्रिम बुद्धिमत्ता की लहर में महत्वपूर्ण स्थिति को फिर से मान्यता मिली है।
【AiBase सारांश:】
🌟 NVIDIA का बाजार मूल्य 3.43 ट्रिलियन डॉलर तक पहुंच गया, Apple को पीछे छोड़कर वैश्विक बाजार मूल्य में सबसे ऊपर आ गया।
📈 2022 के अंत से NVIDIA के शेयर की कीमत में 850% की वृद्धि हुई है, जो मजबूत बाजार प्रदर्शन को दर्शाता है।
🤖 Apple भी कृत्रिम बुद्धिमत्ता के क्षेत्र में प्रयास कर रहा है, लेकिन NVIDIA अभी भी शीर्ष बड़े भाषा मॉडल का प्रमुख समर्थक है।
9、Microsoft ने Magnetic-One सिस्टम पेश किया: कई बुद्धिमान एजेंटों के सहयोग से दैनिक कार्यों को पूरा करना
Microsoft द्वारा हाल ही में लॉन्च किया गया Magnetic-One सिस्टम एक बहु-एजेंट ढांचा है, जिसका उद्देश्य व्यक्तिगत और व्यावसायिक कार्यकुशलता को बढ़ाना है। यह सिस्टम एक AI मॉडल को कई सहायक एजेंटों को संचालित करने की अनुमति देता है, जो जटिल बहु-चरण कार्यों को सहयोग से पूरा करते हैं। Microsoft ने विकास के लिए OpenAI के GPT-4o का उपयोग किया है, लेकिन सिस्टम बड़े भाषा मॉडल से स्वतंत्र है, और शक्तिशाली निष्कर्षण मॉडल का उपयोग करने की सिफारिश की जाती है।
【AiBase सारांश:】
🌟 Magnetic-One सिस्टम: Microsoft द्वारा पेश किया गया एक बहु-एजेंट ढांचा, जिसका उद्देश्य उत्पादकता बढ़ाना और दैनिक कार्यों को स्वचालित करना है।
🤖 कई बुद्धिमान एजेंटों की भूमिकाएँ: जिसमें कमांडर, वेब ब्राउज़िंग, फ़ाइल ब्राउज़िंग, कोड लेखन आदि शामिल हैं, जो सहयोग से काम करते हैं।
📈 ओपन-सोर्स साझा: Magnetic-One डेवलपर्स को ओपन-सोर्स ढांचा प्रदान करता है, जिससे एजेंटों के लचीले अनुप्रयोग और मूल्यांकन को बढ़ावा मिलता है।
विवरण लिंक: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/