Unified-IO 2は、画像、テキスト、音声、動作を理解し生成できる統一されたマルチモーダル生成モデルです。単一のエンコーダー・デコーダーTransformerモデルを使用し、異なるモダリティ(画像、テキスト、音声、動作など)の入出力は、共有された意味空間で表現され処理されます。このモデルは、大規模なマルチモーダル事前学習データセットでゼロからトレーニングされ、マルチモーダルのノイズ除去目標で最適化されています。幅広いスキルを習得するために、120個の既存データセットでファインチューニングされており、これにはプロンプトとデータ拡張が含まれています。Unified-IO 2はGRITベンチマークにおいて最先端の性能を達成し、画像生成と理解、テキスト理解、ビデオと音声の理解、ロボット操作など30以上のベンチマークで強力な結果を示しています。