Meta की FAIR टीम ने हाल ही में Dualformer नामक एक नई Transformer मॉडल लॉन्च किया है, जो मानव के दोहरे संज्ञानात्मक प्रणाली की नकल करता है, और यह तेजी से और धीरे-धीरे सोचने के तरीकों को Seamlessly एकीकृत कर सकता है, जिससे इसकी तर्क क्षमता और गणना दक्षता में महत्वपूर्ण प्रगति हुई है।
मनुष्य की सोच प्रक्रिया को आमतौर पर दो प्रणालियों द्वारा नियंत्रित माना जाता है: प्रणाली 1 तेजी से और सहजता से कार्य करती है, जबकि प्रणाली 2 अधिक धीरे-धीरे लेकिन अधिक तार्किक होती है।
पारंपरिक Transformer मॉडल आमतौर पर प्रणाली 1 या प्रणाली 2 में से केवल एक का अनुकरण करते हैं, जिससे मॉडल या तो तेज़ होते हैं लेकिन तर्क क्षमता कम होती है, या तर्क क्षमता मजबूत होती है लेकिन गति धीमी और गणना की लागत अधिक होती है।
Dualformer की नवाचार इसकी प्रशिक्षण विधि में है। शोधकर्ताओं ने मॉडल को यादृच्छिक तर्क ट्रैक के माध्यम से प्रशिक्षित किया, और प्रशिक्षण के दौरान ट्रैक के विभिन्न भागों को यादृच्छिक रूप से छोड़ दिया, जो मानव सोच प्रक्रिया का विश्लेषण करने और शॉर्टकट बनाने के समान है।यह प्रशिक्षण रणनीति Dualformer को तर्क करते समय विभिन्न मोड में लचीलेपन से स्विच करने में सक्षम बनाती है:
तेज़ मोड: Dualformer केवल अंतिम समाधान आउटपुट करता है, जो बेहद तेज है।
धीमा मोड: Dualformer पूर्ण तर्क श्रृंखला और अंतिम समाधान आउटपुट करता है, जिससे इसकी तर्क क्षमता अधिक होती है।
स्वचालित मोड: Dualformer कार्य की जटिलता के अनुसार उपयुक्त मोड का स्वचालित रूप से चयन कर सकता है।
प्रयोगात्मक परिणामों से पता चलता है कि Dualformer ने भूलभुलैया नेविगेशन और गणितीय समस्याओं को हल करने जैसे कार्यों में उत्कृष्ट प्रदर्शन किया है। धीमे मोड में, Dualformer ने 30x30 की भूलभुलैया नेविगेशन कार्य को 97.6% की सफलता दर के साथ हल किया, जो केवल पूर्ण तर्क ट्रैक का उपयोग करके प्रशिक्षित Searchformer मॉडल से बेहतर है, जबकि तर्क के चरणों में 45.5% की कमी आई है।
तेज़ मोड में, Dualformer की सफलता दर भी 80% तक पहुंच गई, जो केवल अंतिम समाधान का उपयोग करके प्रशिक्षित Solution-Only मॉडल से कहीं अधिक है। स्वचालित मोड में, Dualformer उच्च सफलता दर बनाए रखते हुए तर्क के चरणों को महत्वपूर्ण रूप से कम करने में सक्षम है।
Dualformer की सफलता यह दर्शाती है कि मानव संज्ञानात्मक सिद्धांतों को कृत्रिम बुद्धिमत्ता मॉडल डिज़ाइन में लागू करना मॉडल के प्रदर्शन को प्रभावी ढंग से बढ़ा सकता है। यह तेज और धीमे सोचने के तरीकों का संयोजन एक मजबूत और अधिक कुशल AI प्रणाली बनाने के लिए नए विचार प्रदान करता है।
पत्र का पता: https://arxiv.org/pdf/2410.09918