LLaVA-OneVisionは、バイトダンス社と複数の大学との共同開発による大規模多様なモダリティモデル(LMMs)です。単一画像、複数画像、動画の各シーンにおいて、オープンな大規模多様なモダリティモデルのパフォーマンス限界を押し広げています。本モデルは、異なるモダリティ/シーン間での強力な転移学習を可能にする設計となっており、特に動画理解やシーン横断能力において新たな総合的な能力を示しています。これは、画像から動画へのタスク変換によって実証されています。