आपका स्वागत है 【AI दैनिक】 कॉलम में! यह आपका दैनिक मार्गदर्शक है जो आपको कृत्रिम बुद्धिमत्ता की दुनिया का पता लगाने में मदद करता है। हम प्रतिदिन आपके लिए AI क्षेत्र की नवीनतम खबरें प्रस्तुत करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, और आपको तकनीकी रुझानों और नवीन AI उत्पाद अनुप्रयोगों को समझने में मदद करते हैं।
नए AI उत्पादों के बारे में जानने के लिए यहाँ क्लिक करें: https://top.aibase.com/
1. अलीबाबा के टोंगयी वान्शियांग प्रारंभिक और अंतिम फ्रेम वीडियो जेनरेशन मॉडल Wan2.1-FLF2V-14B ओपन सोर्स किया गया
अलीबाबा की टोंगयी प्रयोगशाला ने हगिंग फेस और गिटहब पर Wan2.1-FLF2V-14B मॉडल को ओपन सोर्स किया है, जो AI वीडियो जेनरेशन तकनीक में एक बड़ी प्रगति का प्रतीक है। यह मॉडल उच्च-रिज़ॉल्यूशन वीडियो जेनरेशन का समर्थन करता है, और उपयोगकर्ता द्वारा प्रदान किए गए प्रारंभिक और अंतिम फ्रेम के माध्यम से सुचारू एनिमेशन संक्रमण प्राप्त करता है। इसमें टेक्स्ट-टू-वीडियो, वीडियो संपादन आदि जैसे कई कार्य शामिल हैं। ओपन सोर्सिंग ने तकनीकी बाधाओं को कम किया है, डेवलपर्स का ध्यान आकर्षित किया है, और AI वीडियो निर्माण के व्यापक अनुप्रयोग को बढ़ावा दिया है।
【AiBase सारांश:】
📸 प्रारंभिक और अंतिम फ्रेम नियंत्रण का समर्थन करता है, उपयोगकर्ताओं को केवल दो चित्र प्रदान करने की आवश्यकता होती है, और यह 5 सेकंड का 720p उच्च-रिज़ॉल्यूशन वीडियो उत्पन्न कर सकता है।
🚀 मॉडल बहु-मोडल समर्थन प्रदान करता है, वीडियो जेनरेशन के अलावा, यह टेक्स्ट-गाइडेड इमेज और ऑडियो जेनरेशन भी कर सकता है, जिससे रचनात्मकता के क्षेत्र का विस्तार होता है।
🌐 ओपन सोर्सिंग ने डेवलपर्स की भागीदारी को बढ़ावा दिया है, और अलीबाबा द्वारा शुरू की गई मुफ्त परीक्षण गतिविधि ने समुदाय की प्रतिक्रिया और अनुकूलन को और अधिक प्रोत्साहित किया है।
विस्तृत लिंक:https://github.com/Wan-Video/Wan2.1
2. बाइटडांस ने Seed इंटेलिजेंट एजेंट मॉडल UI-TARS-1.5 ओपन सोर्स किया
बाइटडांस का UI-TARS-1.5 मॉडल बहु-मोडल इंटेलिजेंट एजेंट क्षेत्र में उल्लेखनीय प्रगति करता है, खासकर GUI ऑपरेशन और गेम रीज़निंग में। इस मॉडल ने प्रबलित शिक्षा के माध्यम से उच्च-स्तरीय तर्क क्षमता को मजबूत किया है, जो जटिल कार्यों में उत्कृष्ट प्रदर्शन दिखाता है। ओपन सोर्स UI-TARS-1.5 डेवलपर्स को एक शक्तिशाली उपकरण प्रदान करता है, जो बहु-मोडल इंटेलिजेंट एजेंट तकनीक के विकास को बढ़ावा देता है, और भविष्य में मानवीय स्तर तक पहुँचने के लिए इसे और बेहतर बनाया जाएगा।
【AiBase सारांश:】
🖥️ UI-TARS-1.5 ने 7 GUI मूल्यांकन मानदंडों में SOTA प्रदर्शन प्राप्त किया है, जो लंबे समय तक चलने वाले तर्क और इंटरैक्शन क्षमता को दर्शाता है।
🎮 गेम कार्यों में, UI-TARS-1.5 ने स्थिर अनुमान विस्तार क्षमता दिखाई है, और Minecraft में इसकी "सोच-फिर-कार्रवाई" तंत्र की प्रभावशीलता को सत्यापित किया है।
📈 इस मॉडल ने दृश्य धारणा वृद्धि और System2 तर्क तंत्र के माध्यम से सटीक GUI ऑपरेशन प्राप्त किया है, जिससे विकास की बाधा कम हुई है।
विस्तृत लिंक:https://github.com/bytedance/UI-TARS - वेबसाइट:https://seed-tars.com/ - Arxiv:https://arxiv.org/abs/2501.12326
3. OpenAI ने व्यावहारिक दस्तावेज़ "इंटेलिजेंट एजेंट निर्माण के लिए व्यावहारिक मार्गदर्शिका" जारी की (दस्तावेज़ संसाधन संलग्न)
OpenAI ने हाल ही में जारी की गई "इंटेलिजेंट एजेंट निर्माण के लिए व्यावहारिक मार्गदर्शिका" उत्पाद और इंजीनियरिंग टीमों को इंटेलिजेंट एजेंट सिस्टम बनाने के लिए आवश्यक ज्ञान और सर्वोत्तम अभ्यास प्रदान करती है। यह मार्गदर्शिका इंटेलिजेंट एजेंट की परिभाषा, डिज़ाइन और सुरक्षित परिनियोजन का विस्तृत विवरण देती है, जो इंटेलिजेंट एजेंट और पारंपरिक सॉफ़्टवेयर के बीच मौलिक अंतर पर जोर देती है, जो जटिल निर्णय लेने और असंरचित डेटा को संसाधित करने के लिए विशेष रूप से उपयुक्त है।
【AiBase सारांश:】
🧠 इंटेलिजेंट एजेंट में उच्च स्वायत्तता होती है, जो उपयोगकर्ताओं की ओर से जटिल कार्यप्रवाह को पूरा कर सकता है, जो पारंपरिक सॉफ़्टवेयर के स्वचालित कार्यों से अलग है।
🔧 इंटेलिजेंट एजेंट के निर्माण के लिए मॉडल, उपकरण और निर्देशों जैसे मुख्य घटकों पर विचार करना आवश्यक है ताकि इंटेलिजेंट एजेंट की प्रभावशीलता और विश्वसनीयता सुनिश्चित हो सके।
🔒 सुरक्षा रेलिंग डेटा गोपनीयता और प्रतिष्ठा जोखिमों के प्रबंधन के लिए महत्वपूर्ण है, डेवलपर्स को संभावित जोखिमों से निपटने के लिए बहु-स्तरीय सुरक्षा उपाय स्थापित करने चाहिए।
विस्तृत लिंक:https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
4. Tencent ने उच्च चरित्र स्थिरता, अनुकूलित मुद्राओं, शैलियों और दृश्यों के साथ Hun Yuan InstantCharacter को ओपन सोर्स किया
Tencent Hun Yuan टीम ने आधिकारिक तौर पर InstantCharacter ढांचे को ओपन सोर्स किया है, जो एक डिफ्यूजन ट्रांसफॉर्मर-आधारित चरित्र वैयक्तिकरण उपकरण है जिसमें उच्च स्थिरता और लचीलापन है, जो एकल छवि से विविध चरित्र अनुकूलन उत्पन्न कर सकता है और कई कला शैलियों के लिए उपयुक्त है। इस ढांचे के ओपन सोर्सिंग से चरित्र अनुकूलन की तकनीकी बाधा कम हो जाएगी, जिससे वैश्विक डेवलपर्स के बीच रचनात्मकता को बढ़ावा मिलेगा, लेकिन कॉपीराइट और नैतिक मुद्दों पर भी ध्यान देने की आवश्यकता है।
【AiBase सारांश:】
🖼️ सिंगल-इमेज ड्राइव: केवल एक चरित्र छवि और टेक्स्ट प्रॉम्प्ट की आवश्यकता होती है, विविध मुद्राएँ, शैलियाँ और दृश्य उत्पन्न कर सकते हैं।
🔄 उच्च स्थिरता: उन्नत DiT आर्किटेक्चर के माध्यम से, यह सुनिश्चित करता है कि उत्पन्न छवियों में चरित्र विशेषताओं की उच्च स्थिरता है।
🌈 शैली विविधता: यथार्थवादी, एनीमे, कार्टून जैसी कई शैलियों का समर्थन करता है, जो विभिन्न रचनात्मक आवश्यकताओं को पूरा करता है।
विस्तृत लिंक:https://huggingface.co/spaces/InstantX/InstantCharacter
5. वीडियो डिफ्यूजन क्रांतिकारी तकनीक FramePack: केवल 6GB मेमोरी की आवश्यकता है, 1.5 सेकंड/फ्रेम
FramePack एक क्रांतिकारी वीडियो डिफ्यूजन तकनीक है, इसकी कम मेमोरी आवश्यकता और कुशल जेनरेशन क्षमता इसे वीडियो जेनरेशन क्षेत्र में एक गेम चेंजर बनाती है। केवल 6GB मेमोरी की आवश्यकता के साथ, FramePack हजारों फ्रेम वाले वीडियो को पूर्ण फ्रेम दर पर उत्पन्न कर सकता है, जिससे तकनीक के अनुप्रयोग की बाधा बहुत कम हो जाती है। इसके अलावा, अनुकूलन के बाद इसकी जेनरेशन गति 1.5 सेकंड/फ्रेम तक पहुँच सकती है, जो सामग्री निर्माण और रीयल-टाइम अनुप्रयोगों के लिए नई संभावनाएँ प्रदान करती है。
【AiBase सारांश:】
💻 FramePack को केवल 6GB मेमोरी की आवश्यकता होती है, और यह 30fps पर हजारों फ्रेम वाले वीडियो उत्पन्न कर सकता है, जिससे तकनीकी बाधा कम हो जाती है।
⚡ जेनरेशन गति आश्चर्यजनक है, अनुकूलन के बिना 2.5 सेकंड/फ्रेम, और अनुकूलन के बाद 1.5 सेकंड/फ्रेम तक पहुँच सकता है, जो कई अनुप्रयोग परिदृश्यों के लिए उपयुक्त है।
🌍 यह तकनीक सामग्री निर्माण, गेम विकास और एज कंप्यूटिंग जैसे क्षेत्रों के लिए व्यापक अनुप्रयोग संभावनाएँ प्रदान करती है, जिससे वीडियो जेनरेशन तकनीक का "लोकतंत्रीकरण" होता है।
विस्तृत लिंक:https://lllyasviel.github.io/frame_pack_gitpage/
6. Google ने नया Gemini 2.5 Flash लॉन्च किया: बुद्धिमत्ता और गति से भरपूर AI सहायक
Google द्वारा हाल ही में लॉन्च किया गया Gemini 2.5 Flash संस्करण में अनुमान क्षमता में उल्लेखनीय सुधार किया गया है, खासकर मिश्रित अनुमान मॉडल की शुरूआत के साथ, जिससे डेवलपर्स आवश्यकतानुसार सोच प्रक्रिया की लागत और विलंबता को लचीले ढंग से नियंत्रित कर सकते हैं। सोच बजट निर्धारित करके, डेवलपर्स गुणवत्ता और दक्षता के बीच एक आदर्श संतुलन पा सकते हैं। यह संस्करण जटिल कार्यों को संभालने में उत्कृष्ट प्रदर्शन करता है, खासकर बहु-चरणीय तर्क परिदृश्यों में, इसकी उत्कृष्ट क्षमता और लचीलापन दिखाता है।
【AiBase सारांश:】
💡 Gemini 2.5 Flash ने मिश्रित अनुमान मॉडल शुरू किया है, जिससे डेवलपर्स सोच फ़ंक्शन को चुन सकते हैं और अनुमान प्रक्रिया को लचीले ढंग से नियंत्रित कर सकते हैं।
⚙️ डेवलपर्स सोच बजट निर्धारित कर सकते हैं, विभिन्न कार्यों की आवश्यकताओं को पूरा करने के लिए गुणवत्ता, लागत और विलंबता को संतुलित कर सकते हैं।
📊 LMArena के "कठिन संकेत" परीक्षण में, Gemini 2.5 Flash ने उत्कृष्ट प्रदर्शन किया, जो केवल 2.5 Pro से पीछे है, जो इसकी मजबूत अनुमान क्षमता को दर्शाता है।
7. OpenAI ने कम लागत वाले AI अनुप्रयोगों को बढ़ावा देने के लिए Flex प्रोसेसिंग API लॉन्च किया
OpenAI ने हाल ही में तीव्र AI बाजार प्रतिस्पर्धा का सामना करने के लिए Flex प्रोसेसिंग API लॉन्च किया है। यह API उपयोगकर्ताओं को कम लागत पर AI मॉडल का उपयोग करने की अनुमति देता है, हालांकि प्रतिक्रिया गति और उपलब्धता में कुछ समझौता किया गया है। Flex प्रोसेसिंग कम प्राथमिकता वाले और गैर-उत्पादक कार्यों के लिए विशेष रूप से उपयुक्त है, जिससे लागत में उल्लेखनीय कमी आई है, खासकर वर्तमान में AI सेवाओं में व्यापक मूल्य वृद्धि की पृष्ठभूमि के खिलाफ, एक किफायती विकल्प प्रदान करता है।
【AiBase सारांश:】
💰 Flex प्रोसेसिंग API उपयोगकर्ताओं को कम लागत पर AI मॉडल का उपयोग करने की अनुमति देता है, जो सीमित बजट वाले डेवलपर्स के लिए उपयुक्त है।
⚡ Flex प्रोसेसिंग का उपयोग करते समय, o3 मॉडल के इनपुट टोकन की कीमत प्रति मिलियन 5 अमेरिकी डॉलर और आउटपुट टोकन की कीमत प्रति मिलियन 20 अमेरिकी डॉलर तक कम हो जाती है।
🔒 उचित उपयोग सुनिश्चित करने के लिए, डेवलपर्स को o3 मॉडल तक पहुँचने के लिए पहचान सत्यापन प्रक्रिया से गुजरना होगा, जिससे प्लेटफ़ॉर्म की सुरक्षा बनी रहेगी।
8. Midjourney इमेज एडिटर में बड़ा अपडेट: नया UI, लेयर फ़ंक्शन और इंटेलिजेंट टूल लॉन्च किए गए