W.A.L.T एक ट्रांसफॉर्मर पर आधारित वास्तविक दृश्य वीडियो निर्माण विधि है, जो छवियों और वीडियो को एक एकीकृत संभावित स्थान पर संयुक्त रूप से संपीड़ित करके क्रॉस-मोडल प्रशिक्षण और निर्माण को प्राप्त करता है। यह स्मृति और प्रशिक्षण दक्षता में सुधार के लिए विंडो ध्यान तंत्र का उपयोग करता है। यह विधि कई वीडियो और छवि निर्माण बेंचमार्क परीक्षणों में अग्रिम प्रदर्शन प्राप्त करती है।