InternVLは、ViTモデルを60億パラメーターに拡張し、言語モデルとアライメントさせることで、現在最大の140億パラメーターのオープンソースビジョン基礎モデルを構築しました。これにより、視覚認識、クロスモーダル検索、マルチモーダル対話など幅広いタスクにおいて、32項目もの最先端性能を達成しています。