AI की दुनिया में, परिवर्तन अक्सर अनजाने में आता है। हाल ही में, TTT नामक एक नई संरचना का उदय हुआ है, जिसे स्टैनफोर्ड, UCSD, UC बर्कले और मेटा के शोधकर्ताओं द्वारा प्रस्तुत किया गया है, जिसने एक रात में ट्रांसफार्मर और मंबा को उलट दिया, और भाषा मॉडल में क्रांतिकारी बदलाव लाया।
TTT, जिसका पूरा नाम Test-Time-Training layers है, एक नई संरचना है, जो ग्रेडिएंट डिसेंट के माध्यम से संदर्भ को संकुचित करता है, पारंपरिक ध्यान तंत्र को सीधे प्रतिस्थापित करता है। यह विधि न केवल दक्षता को बढ़ाती है, बल्कि अभिव्यक्तिपूर्ण स्मृति के साथ रैखिक जटिलता संरचना को भी अनलॉक करती है, जिससे हम संदर्भ में लाखों या यहां तक कि अरबों टोकन वाले LLM को प्रशिक्षित कर सकते हैं।
TTT परतों का प्रस्ताव मौजूदा RNN और ट्रांसफार्मर संरचनाओं की गहरी अंतर्दृष्टि पर आधारित है। RNN उच्च दक्षता प्रदान करता है, लेकिन इसकी अभिव्यक्ति क्षमता सीमित है; जबकि ट्रांसफार्मर की अभिव्यक्ति क्षमता मजबूत है, लेकिन इसकी गणना लागत संदर्भ की लंबाई के साथ रैखिक रूप से बढ़ती है। TTT परत दोनों के लाभों को चतुराई से जोड़ती है, रैखिक जटिलता को बनाए रखते हुए अभिव्यक्ति क्षमता को बढ़ाती है।
परीक्षणों में, TTT-Linear और TTT-MLP दोनों प्रकारों ने उत्कृष्ट प्रदर्शन दिखाया, और वे छोटे और लंबे संदर्भ दोनों में ट्रांसफार्मर और मंबा को पीछे छोड़ते हैं। विशेष रूप से लंबे संदर्भ के परिदृश्यों में, TTT परत के लाभ और भी स्पष्ट हैं, जो लंबे वीडियो मॉडलिंग जैसे अनुप्रयोगों के लिए विशाल संभावनाएं प्रदान करते हैं।
TTT परत का प्रस्ताव न केवल सिद्धांत में नवाचार है, बल्कि वास्तविक अनुप्रयोगों में भी विशाल संभावनाएं प्रदर्शित करता है। भविष्य में, TTT परत लंबे वीडियो मॉडलिंग में उपयोग की जाने की उम्मीद है, जो घनत्व से नमूना फ्रेम प्रदान करके अधिक समृद्ध जानकारी प्रदान करती है, जो ट्रांसफार्मर के लिए एक बोझ है, लेकिन TTT परत के लिए एक वरदान है।
यह शोध टीम की पांच साल की मेहनत का परिणाम है, जो डॉ. यू सुन के डॉक्टरेट के बाद के समय से शुरू हुआ था। उन्होंने खोज जारी रखी, लगातार प्रयास किए, और अंततः इस क्रांतिकारी परिणाम को हासिल किया। TTT परत की सफलता, टीम की निरंतर मेहनत और नवाचार की भावना का परिणाम है।
TTT परत का आगमन AI क्षेत्र में नई ऊर्जा और संभावनाएं लाता है। यह न केवल भाषा मॉडल के प्रति हमारी धारणा को बदलता है, बल्कि भविष्य के AI अनुप्रयोगों के लिए नए रास्ते खोलता है। चलो हम एक साथ मिलकर TTT परत के भविष्य के अनुप्रयोगों और विकास की प्रतीक्षा करें, और AI प्रौद्योगिकी की प्रगति और突破 को देखें।
पत्रिका का पता: https://arxiv.org/abs/2407.04620