कृत्रिम बुद्धिमत्ता (AI) स्टार्टअप कोहियर की गैर-लाभकारी अनुसंधान प्रयोगशाला ने इस सप्ताह एक बहु-मोडल "ओपन" AI मॉडल - आया विजन लॉन्च किया है। प्रयोगशाला का दावा है कि यह मॉडल उद्योग में अग्रणी है।
आया विजन कई कार्य कर सकता है, जिसमें चित्रों के लिए कैप्शन लिखना, तस्वीरों से संबंधित प्रश्नों का उत्तर देना, पाठ का अनुवाद करना और 23 प्रमुख भाषाओं में सारांश उत्पन्न करना शामिल है। कोहियर का कहना है कि वे व्हाट्सएप के माध्यम से आया विजन मुफ्त में उपलब्ध करा रहे हैं ताकि दुनिया भर के शोधकर्ताओं को तकनीकी प्रगति तक आसानी से पहुँच मिल सके।
कोहियर ने अपने ब्लॉग में बताया है कि हालाँकि कृत्रिम बुद्धिमत्ता में उल्लेखनीय प्रगति हुई है, लेकिन विभिन्न भाषाओं के बीच मॉडल के प्रदर्शन में अभी भी बहुत अंतर है, खासकर पाठ और छवियों से जुड़े बहु-मोडल कार्यों में। "आया विजन का लक्ष्य इस अंतर को कम करना है।"
आया विजन के दो संस्करण हैं: आया विजन 32B और आया विजन 8B। अधिक उन्नत आया विजन 32B को "नई सीमा" कहा जाता है, जिसने कुछ दृश्य समझ बेंचमार्क में अपने आकार से दोगुने मॉडल को पीछे छोड़ दिया है, जिसमें मेटा का लामा-3.290B विजन भी शामिल है। साथ ही, आया विजन 8B ने कुछ मूल्यांकन में अपने आकार से दस गुना बड़े मॉडल को भी पछाड़ दिया है।
ये दोनों मॉडल AI विकास प्लेटफ़ॉर्म हगिंग फेस पर क्रिएटिव कॉमन्स 4.0 लाइसेंस के तहत उपलब्ध हैं। उपयोगकर्ताओं को कोहियर के स्वीकार्य उपयोग परिशिष्ट का पालन करना होगा और इसका उपयोग व्यावसायिक उद्देश्यों के लिए नहीं किया जा सकता है।
कोहियर का कहना है कि आया विजन को एक "विविध" अंग्रेजी डेटासेट का उपयोग करके प्रशिक्षित किया गया था, जिसका प्रयोगशाला ने अनुवाद किया और सिंथेटिक एनोटेशन के साथ प्रशिक्षित किया। सिंथेटिक एनोटेशन का मतलब है AI द्वारा उत्पन्न एनोटेशन, जो मॉडल को प्रशिक्षण के दौरान डेटा को समझने और व्याख्या करने में मदद करते हैं। हालाँकि सिंथेटिक डेटा में संभावित कमियाँ हैं, लेकिन ओपनएआई जैसे प्रतिस्पर्धी भी मॉडल को प्रशिक्षित करने के लिए तेजी से सिंथेटिक डेटा का उपयोग कर रहे हैं।
कोहियर ने बताया कि आया विजन को सिंथेटिक एनोटेशन के साथ प्रशिक्षित करने से उन्हें संसाधनों के उपयोग को कम करने में मदद मिली है, जबकि फिर भी प्रतिस्पर्धी प्रदर्शन प्राप्त किया जा रहा है। "यह दक्षता के प्रति हमारी प्रतिबद्धता को दर्शाता है, कम कम्प्यूटेशनल संसाधनों का उपयोग करके अधिक परिणाम प्राप्त करना।"
अनुसंधान समुदाय को और अधिक समर्थन देने के लिए, कोहियर ने एक नया बेंचमार्क मूल्यांकन उपकरण - आयाविजनबेंच भी जारी किया है, जिसका उद्देश्य दृश्य और भाषा संयोजन कार्यों में मॉडल की क्षमताओं का परीक्षण करना है, जैसे कि दो छवियों के बीच अंतर की पहचान करना और स्क्रीनशॉट को कोड में बदलना।
वर्तमान में, कृत्रिम बुद्धिमत्ता उद्योग तथाकथित "मूल्यांकन संकट" का सामना कर रहा है, जो मुख्य रूप से लोकप्रिय बेंचमार्क के व्यापक उपयोग से उत्पन्न होता है, जिसके कुल स्कोर का अधिकांश AI उपयोगकर्ताओं के लिए प्रासंगिक कार्यों की क्षमता से कम संबंध होता है। कोहियर का दावा है कि आयाविजनबेंच मॉडल की क्रॉस-भाषाई और बहु-मोडल समझ का मूल्यांकन करने के लिए एक "व्यापक और चुनौतीपूर्ण" ढाँचा प्रदान करता है।
आधिकारिक ब्लॉग: https://cohere.com/blog/aya-vision
मुख्य बातें:
🌟 आया विजन मॉडल को कोहियर ने उद्योग में सर्वश्रेष्ठ बताया है, जो कई भाषाओं और दृश्य कार्यों को कर सकता है।
💡 आया विजन के दो संस्करण हैं, 32B और 8B, जो आकार में बड़े प्रतिस्पर्धी मॉडल को पछाड़ते हैं।
🔍 कोहियर ने एक नया बेंचमार्क मूल्यांकन उपकरण आयाविजनबेंच भी जारी किया है, जिसका उद्देश्य AI मॉडल मूल्यांकन समस्याओं में सुधार करना है।