सोरा एक बड़े पैमाने पर प्रशिक्षित पाठ-नियंत्रित वीडियो बनाने वाला डिफ्यूज़न मॉडल है। यह एक मिनट तक की उच्च-रिज़ॉल्यूशन वीडियो बना सकता है, जिसमें विभिन्न प्रकार के दृश्य डेटा और रिज़ॉल्यूशन शामिल हैं। सोरा वीडियो और छवियों के संकुचित संभावित स्थान में प्रशिक्षण द्वारा, इसे स्थानिक-कालिक पैच में विभाजित करके, स्केलेबल वीडियो निर्माण प्राप्त करता है। सोरा भौतिक और डिजिटल दुनिया के कुछ पहलुओं, जैसे त्रि-आयामी स्थिरता और अंतःक्रिया को अनुकरण करने की क्षमता भी दर्शाता है, जो उच्च क्षमता वाले सिम्युलेटर के विकास के लिए वीडियो-जनरेटिंग मॉडलों के पैमाने को बढ़ाने के संभावनाओं का पता लगाता है।