रॉकेट-1 एक दृश्य-भाषा मॉडल (VLMs) है, जिसे विशेष रूप से खुले विश्व वातावरण में अवतारित निर्णय लेने के लिए डिज़ाइन किया गया है। यह मॉडल दृश्य-समय संदर्भ संकेत प्रोटोकॉल के माध्यम से, VLMs और नीति मॉडल के बीच संचार को जोड़ता है, भूतकाल और वर्तमान अवलोकनों से प्राप्त वस्तु विभाजन का उपयोग करके नीति-पर्यावरण अंतःक्रिया को निर्देशित करता है। इस तरह से, रॉकेट-1 VLMs की दृश्य-भाषा तर्क क्षमता को अनलॉक करने में सक्षम है, जिससे यह जटिल रचनात्मक कार्यों को हल कर सकता है, खासकर स्थानिक समझ के मामले में। Minecraft में रॉकेट-1 के प्रयोगों से पता चलता है कि यह विधि एजेंट को पहले असंभव कार्यों को पूरा करने में सक्षम बनाती है, जिससे अवतारित निर्णय लेने में दृश्य-समय संदर्भ संकेत की प्रभावशीलता पर प्रकाश पड़ता है।