InternVL: 汎用的な視覚言語タスクのための革新的なモデル

近年、特に大規模言語モデル(LLM)の登場により、人工知能分野では視覚と言語のシームレスな統合が大きな焦点となっています。しかし、マルチモーダルAGIシステムにおいては、視覚および視覚言語基盤モデルの開発はまだ遅れを取っています。

このギャップを埋めるため、南京大学、OpenGVLab、上海人工知能研究所、香港大学、香港中文大学、清華大学、中国科学技術大学、そしてSenseTime Researchの研究者らが、革新的なモデル「InternVL」を提案しました。このモデルは、視覚基盤モデルの規模を拡大し、汎用的な視覚言語タスクに適応できるように設計されています。

InternVLは、32種類の汎用的な視覚言語ベンチマークテストにおいて既存の手法を凌駕し、画像・動画分類、画像・動画テキスト検索、画像キャプション生成、VQA(Visual Question Answering)、マルチモーダル対話など、様々なタスクにおける優れた能力を示しました。