गूगल ने नई दृश्य-भाषा मॉडल PaliGemma 2 Mix पेश किया जो डेवलपर्स के लिए कई सुविधाओं का समावेश करता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Feb 20, 2025

204

हाल ही में, गूगल ने एक नए दृश्य - भाषा मॉडल (Vision-Language Model, VLM) की घोषणा की है, जिसका नाम PaliGemma2Mix है। यह मॉडल छवि प्रसंस्करण और प्राकृतिक भाषा प्रसंस्करण की क्षमताओं को मिलाकर काम करता है, जिससे यह दृश्य जानकारी और पाठ इनपुट को एक साथ समझ सकता है और आवश्यकतानुसार उपयुक्त आउटपुट उत्पन्न कर सकता है, जो बहु-कार्यात्मकता में कृत्रिम बुद्धिमत्ता प्रौद्योगिकी की एक और प्रगति को दर्शाता है।

PaliGemma2Mix की क्षमताएँ बहुत मजबूत हैं, इसमें छवि वर्णन, ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR), छवि प्रश्न-उत्तर, लक्ष्य पहचान और छवि विभाजन जैसे विभिन्न दृश्य - भाषा कार्यों का एकीकरण किया गया है, जो विभिन्न अनुप्रयोग परिदृश्यों के लिए उपयुक्त है। डेवलपर्स इस मॉडल का उपयोग पूर्व-प्रशिक्षित चेकपॉइंट्स के माध्यम से सीधे कर सकते हैं, या अपनी आवश्यकताओं के अनुसार इसे और भी अनुकूलित कर सकते हैं।

यह मॉडल पिछले PaliGemma2 पर आधारित है और विशेष रूप से मिश्रित कार्यों के लिए अनुकूलित किया गया है, ताकि डेवलपर्स इसकी शक्तिशाली क्षमताओं की आसानी से खोज कर सकें। PaliGemma2Mix तीन प्रकार के पैरामीटर आकार प्रदान करता है, जिसमें 3B (30 अरब पैरामीटर), 10B (100 अरब पैरामीटर) और 28B (280 अरब पैरामीटर) शामिल हैं, और यह 224px और 448px दो रिज़ॉल्यूशन का समर्थन करता है, जो विभिन्न कंप्यूटिंग संसाधनों और कार्य आवश्यकताओं के अनुकूल है।

PaliGemma2Mix की मुख्य विशेषताओं में शामिल हैं:

1. छवि वर्णन: मॉडल संक्षिप्त और विस्तृत छवि विवरण उत्पन्न कर सकता है, जैसे कि एक गाय को समुद्र तट पर खड़े हुए पहचानना और विस्तृत विवरण प्रदान करना।

2. ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR): यह मॉडल छवियों से पाठ निकाल सकता है, संकेत, लेबल और दस्तावेज़ सामग्री को पहचान सकता है, जिससे सूचना निकासी में सुविधा होती है।

3. छवि प्रश्न-उत्तर और लक्ष्य पहचान: उपयोगकर्ता छवि अपलोड कर सकते हैं और प्रश्न पूछ सकते हैं, मॉडल छवि का विश्लेषण करेगा और उत्तर प्रदान करेगा, इसके अलावा, यह छवि में विशिष्ट वस्तुओं जैसे जानवरों, वाहनों आदि को सटीकता से पहचान सकता है।

यह उल्लेखनीय है कि डेवलपर्स Kaggle और Hugging Face पर इस मॉडल के मिश्रित वेट्स डाउनलोड कर सकते हैं, जिससे आगे के प्रयोग और विकास में सुविधा होती है। यदि आप इस मॉडल में रुचि रखते हैं, तो आप Hugging Face के प्रदर्शन मंच के माध्यम से इसकी शक्तिशाली क्षमताओं और अनुप्रयोग संभावनाओं की खोज कर सकते हैं।

PaliGemma2Mix के लॉन्च के साथ, गूगल ने दृश्य - भाषा मॉडल के क्षेत्र में अपने शोध को एक और कदम आगे बढ़ाया है, और उम्मीद है कि यह तकनीक व्यावहारिक अनुप्रयोगों में और अधिक मूल्य दिखाएगी।

तकनीकी रिपोर्ट: https://arxiv.org/abs/2412.03555

रोबोट मालिकों को अलविदा! कैलिफ़ोर्निया ने मानव नियंत्रण सुनिश्चित करने के लिए विधेयक पेश किया

कैलिफ़ोर्निया के सीनेटर जेरी मैकनर्नी ने गुरुवार को "नो रोबो बॉस अधिनियम" पेश करने की घोषणा की। यह विधेयक कार्यस्थल में कृत्रिम बुद्धिमत्ता (AI) के निर्णयों पर मानव पर्यवेक्षण सुनिश्चित करने का प्रयास करता है, जो इस तरह का पहला प्रस्ताव है। इस विधेयक के अनुसार, प्रस्तावित सीनेट बिल 7, कैलिफ़ोर्निया के नियोक्ताओं को भर्ती, पदोन्नति, दंड या बर्खास्तगी में केवल कृत्रिम बुद्धिमत्ता या स्वचालित निर्णय प्रणाली (एआई) पर निर्भर रहने से रोकता है।

अमेरिकी न्याय विभाग ने गूगल से क्रोम ब्राउज़र बेचने और AI निवेश पर प्रतिबंधों में ढील देने का आग्रह किया

अमेरिकी न्याय विभाग की ताज़ा अदालती दस्तावेज़ों के अनुसार, गूगल से अपने वेब ब्राउज़र क्रोम को बेचने की माँग अभी भी जारी है। यह प्रस्ताव सबसे पहले पिछले साल तत्कालीन राष्ट्रपति बाइडेन द्वारा दिया गया था, और न्याय विभाग ने ट्रम्प के दूसरे कार्यकाल में भी इस योजना को जारी रखा। हालाँकि, न्याय विभाग अब गूगल से अपनी सभी कृत्रिम बुद्धिमत्ता निवेशों को अलग करने की माँग नहीं कर रहा है, जिसमें एंथ्रोपिक में गूगल के अरबों डॉलर के निवेश भी शामिल हैं। न्याय विभाग ने अदालती दस्तावेज़ों में कहा है कि गूगल के अवैध कृत्यों से आर्थिक रूप से विशाल प्रभाव पड़ा है जिससे बाजार पर गंभीर प्रभाव पड़ा है, यह सुनिश्चित करना होगा कि गूगल चाहे कुछ भी हो

अली बाबा के टोंगयी कियानवेन रिज़निंग बड़े मॉडल QwQ-32B ने वैश्विक ओपन सोर्स समुदाय रैंकिंग में प्रथम स्थान प्राप्त किया

अलीबाबा के टोंगयी कियानवेन द्वारा विकसित QwQ-32B नामक एक बड़े भाषा मॉडल ने वैश्विक ओपन सोर्स समुदाय में रैंकिंग में पहला स्थान हासिल किया है। यह मॉडल अपनी उन्नत तर्क क्षमताओं के लिए जाना जाता है।

कृत्रिम बुद्धिमत्ता तकनीक का उपयोग करके वैश्विक स्तर पर सबसे बड़े कॉल सेंटर ऑपरेटर द्वारा भारतीय कर्मचारियों के उच्चारण को वास्तविक समय में संशोधित किया जाता है

विश्व का सबसे बड़ा कॉल सेंटर ऑपरेटर वास्तविक समय में भारतीय कर्मचारियों के उच्चारण को बेहतर बनाने के लिए कृत्रिम बुद्धिमत्ता (एआई) तकनीक का उपयोग कर रहा है। यह तकनीक कर्मचारियों के उच्चारण में सुधार करके बेहतर ग्राहक अनुभव प्रदान करने में मदद करती है।

AI समाचार

गूगल ने नई दृश्य-भाषा मॉडल PaliGemma 2 Mix पेश किया जो डेवलपर्स के लिए कई सुविधाओं का समावेश करता है

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

रोबोट मालिकों को अलविदा! कैलिफ़ोर्निया ने मानव नियंत्रण सुनिश्चित करने के लिए विधेयक पेश किया

अमेरिकी न्याय विभाग ने गूगल से क्रोम ब्राउज़र बेचने और AI निवेश पर प्रतिबंधों में ढील देने का आग्रह किया