清華KEG&智譜AIが発表した多様なモデルCogVLM

清華大学KEGと智譜AIは、新たな最先端多様なモデルCogVLMを発表しました。この次世代モデルは、視覚と言語の特徴を深く融合させています。

CogVLM-17Bは、複数のデータセットにおいて最先端または2位の成績を収め、優れた性能を備えています。このモデルの構造は、ViTエンコーダー、MLPアダプター、事前学習済み大規模言語モデル、そして視覚専門家モジュールで構成されています。

CogVLMは15億枚の画像・テキストペアで事前学習されており、多様なベンチマークにおいて満足のいく結果を示しています。他のモデルと比較して、CogVLMは画像理解、モデルの幻覚、テキスト認識において優れた性能を発揮します。

さらに、このモデルはオープンソース化されており、多様なモデルの研究と応用分野における更なる発展を促進します。この発表は、多様な基盤モデルの研究を推進し、多様な理解を実現し、スマートアプリケーションの基盤を築くことを目的としています。