Meta की FAIR टीम ने हाल ही में Dualformer नामक एक नई Transformer मॉडल लॉन्च किया है, जो मानव के दोहरे संज्ञानात्मक प्रणाली की नकल करता है, और यह तेजी से और धीरे-धीरे सोचने के तरीकों को Seamlessly एकीकृत कर सकता है, जिससे इसकी तर्क क्षमता और गणना दक्षता में महत्वपूर्ण प्रगति हुई है।

मनुष्य की सोच प्रक्रिया को आमतौर पर दो प्रणालियों द्वारा नियंत्रित माना जाता है: प्रणाली 1 तेजी से और सहजता से कार्य करती है, जबकि प्रणाली 2 अधिक धीरे-धीरे लेकिन अधिक तार्किक होती है।

पारंपरिक Transformer मॉडल आमतौर पर प्रणाली 1 या प्रणाली 2 में से केवल एक का अनुकरण करते हैं, जिससे मॉडल या तो तेज़ होते हैं लेकिन तर्क क्षमता कम होती है, या तर्क क्षमता मजबूत होती है लेकिन गति धीमी और गणना की लागत अधिक होती है।

image.png

Dualformer की नवाचार इसकी प्रशिक्षण विधि में है। शोधकर्ताओं ने मॉडल को यादृच्छिक तर्क ट्रैक के माध्यम से प्रशिक्षित किया, और प्रशिक्षण के दौरान ट्रैक के विभिन्न भागों को यादृच्छिक रूप से छोड़ दिया, जो मानव सोच प्रक्रिया का विश्लेषण करने और शॉर्टकट बनाने के समान है।यह प्रशिक्षण रणनीति Dualformer को तर्क करते समय विभिन्न मोड में लचीलेपन से स्विच करने में सक्षम बनाती है:

तेज़ मोड: Dualformer केवल अंतिम समाधान आउटपुट करता है, जो बेहद तेज है।

धीमा मोड: Dualformer पूर्ण तर्क श्रृंखला और अंतिम समाधान आउटपुट करता है, जिससे इसकी तर्क क्षमता अधिक होती है।

स्वचालित मोड: Dualformer कार्य की जटिलता के अनुसार उपयुक्त मोड का स्वचालित रूप से चयन कर सकता है।

image.png

प्रयोगात्मक परिणामों से पता चलता है कि Dualformer ने भूलभुलैया नेविगेशन और गणितीय समस्याओं को हल करने जैसे कार्यों में उत्कृष्ट प्रदर्शन किया है। धीमे मोड में, Dualformer ने 30x30 की भूलभुलैया नेविगेशन कार्य को 97.6% की सफलता दर के साथ हल किया, जो केवल पूर्ण तर्क ट्रैक का उपयोग करके प्रशिक्षित Searchformer मॉडल से बेहतर है, जबकि तर्क के चरणों में 45.5% की कमी आई है।

image.png

image.png

तेज़ मोड में, Dualformer की सफलता दर भी 80% तक पहुंच गई, जो केवल अंतिम समाधान का उपयोग करके प्रशिक्षित Solution-Only मॉडल से कहीं अधिक है। स्वचालित मोड में, Dualformer उच्च सफलता दर बनाए रखते हुए तर्क के चरणों को महत्वपूर्ण रूप से कम करने में सक्षम है।

image.png

image.png

Dualformer की सफलता यह दर्शाती है कि मानव संज्ञानात्मक सिद्धांतों को कृत्रिम बुद्धिमत्ता मॉडल डिज़ाइन में लागू करना मॉडल के प्रदर्शन को प्रभावी ढंग से बढ़ा सकता है। यह तेज और धीमे सोचने के तरीकों का संयोजन एक मजबूत और अधिक कुशल AI प्रणाली बनाने के लिए नए विचार प्रदान करता है।

पत्र का पता: https://arxiv.org/pdf/2410.09918