मनुष्य अक्सर तर्क करते समय चित्र बनाते हैं, जैसे कि ज्यामिति समस्याओं को हल करते समय सहायक रेखाएँ खींचना, मानचित्र पर चिह्नित करना और रेखांकित करना, या विचारों को स्पष्ट करने के लिए स्केच बनाना। हालाँकि, वर्तमान बहु-मोडल भाषा मॉडल (LM) में इस तरह की क्षमता की कमी है। नवीनतम शोध में, शोधकर्ताओं ने "Sketchpad" का विचार पेश किया, जो बहु-मोडल LM को एक दृश्य पेंटिंग बोर्ड और ड्राइंग उपकरण प्रदान करता है, जिससे यह दृश्य तर्क करने में सक्षम हो सके।
उत्पाद का प्रवेश द्वार: https://top.aibase.com/tool/visual-sketchpad
पिछले कार्यों के विपरीत, जो LM को चित्र बनाने के लिए पाठ से चित्र मॉडल का उपयोग करते थे, Sketchpad LM को रेखाएँ, बॉक्स, चिह्न आदि के साथ चित्र बनाने की अनुमति देता है, जो मानव स्केचिंग के और करीब है और तर्क को अधिक सुविधाजनक बनाता है। इसके अलावा, Sketchpad चित्रण प्रक्रिया में पेशेवर दृश्य मॉडल का उपयोग कर सकता है, जैसे कि वस्तु पहचान मॉडल का उपयोग करके सीमा बॉक्स खींचना, या विभाजन मॉडल का उपयोग करके मास्क बनाना, ताकि दृश्य पहचान और तर्क की क्षमताओं को और बढ़ाया जा सके।
प्रयोगात्मक परिणाम दर्शाते हैं कि Sketchpad ने बहु-मोडल बड़े भाषा मॉडल की गणितीय कार्यों (जिसमें ज्यामिति, कार्य, ग्राफ, शतरंज शामिल हैं) और जटिल दृश्य तर्क कार्यों में प्रदर्शन को महत्वपूर्ण रूप से बढ़ा दिया है। बिना चित्रण के मजबूत आधार मॉडल की तुलना में, Sketchpad ने LM के प्रदर्शन में गणितीय कार्यों में औसतन 12.7% और दृश्य कार्यों में 8.6% का सुधार किया। Sketchpad के साथ GPT-4o ने सभी कार्यों में नई तकनीकी ऊँचाई स्थापित की है, जिसमें V*Bench (80.3%), BLINK स्थानिक तर्क (83.9%) और दृश्य समकक्षता (80.8%) शामिल हैं।
इस अध्ययन के परिणाम दर्शाते हैं कि दृश्य पेंटिंग बोर्ड और ड्राइंग उपकरणों को पेश करके, बहु-मोडल LM जटिल तर्क कार्यों को संभालने में मानव सोच के तरीके के और करीब पहुँचने में सक्षम हो गया है, जिससे गणित और दृश्य तर्क के क्षेत्र में इसके प्रदर्शन में सुधार हुआ है। यह突破 भाषा मॉडल और दृश्य मॉडल के विकास में महत्वपूर्ण भूमिका निभाने की उम्मीद है, और कृत्रिम बुद्धिमत्ता तकनीक के विकास के लिए नए संभावनाओं के द्वार खोलता है।