EVE
エンコーダフリーの視覚言語モデル。効率的でデータ駆動型です。
一般製品プログラミング視覚言語モデルエンコーダフリー
EVEは、大連理工大学、北京人工智能研究院、北京大学の研究者によって共同開発された、エンコーダフリーの視覚言語モデルです。様々なアスペクト比の画像において優れた能力を発揮し、Fuyu-8Bを上回り、モジュール型エンコーダベースのLVLMsに匹敵する性能を示します。EVEはデータ効率とトレーニング効率に優れ、33Mの公開データを用いた事前学習と、665KのLLaVA SFTデータを用いたEVE-7Bモデルのトレーニング、さらに1.2MのSFTデータを用いたEVE-7B (HD)モデルのトレーニングが行われています。EVEの開発は、効率的で透明性が高く、実用的な戦略を採用しており、クロスモーダルな純粋なデコーダアーキテクチャに新たな道を切り開いています。
EVE 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34