यूनिफाइड-IO 2 एक एकीकृत बहु-मॉडल जनरेटिव मॉडल है जो छवियों, पाठ, ऑडियो और क्रियाओं को समझ और उत्पन्न कर सकता है। यह एक एकल एन्कोडर-डिकोडर ट्रांसफ़ॉर्मर मॉडल का उपयोग करता है, जो विभिन्न मोड (छवि, पाठ, ऑडियो, क्रियाएँ आदि) के इनपुट और आउटपुट को एक साझा अर्थपूर्ण स्थान में प्रस्तुत करता है और उनका प्रसंस्करण करता है। यह मॉडल बड़े पैमाने पर बहु-मॉडल पूर्व-प्रशिक्षण डेटा पर शुरू से ही प्रशिक्षित किया गया है, और बहु-मॉडल डेनॉइजिंग लक्ष्यों का उपयोग करके अनुकूलित किया गया है। व्यापक कौशल सीखने के लिए, इस मॉडल को 120 मौजूदा डेटासेट पर भी ठीक-ठीक किया गया है, जिसमें प्रॉम्प्ट और डेटा संवर्धन शामिल हैं। यूनिफाइड-IO 2 ने GRIT बेंचमार्क में अत्याधुनिक प्रदर्शन हासिल किया है, और 30 से अधिक बेंचमार्क में मजबूत परिणाम प्राप्त किए हैं, जिसमें छवि निर्माण और समझ, पाठ समझ, वीडियो और ऑडियो समझ और रोबोटिक ऑपरेशन शामिल हैं।