moondream
強力な小型ビジュアル言語モデル。どこでも利用可能です。
一般製品画像ビジュアル言語モデル
moondreamは、SigLIP、Phi-1.5、LLaVAのトレーニングデータセットを使用して構築された16億パラメーターのモデルです。LLaVAデータセットを使用しているため、重みはCC-BY-SAライセンスの対象となります。Huggingface Spacesで試用できます。このモデルは、VQAv2、GQA、VizWiz、TextVQAベンチマークで以下の結果を示しました:LLaVA-1.5(133億パラメーター):80.0、63.3、53.6、61.3;LLaVA-1.5(73億パラメーター):78.5、62.0、50.0、58.2;MC-LLaVA-3B(30億パラメーター):64.2、49.6、24.9、38.6;LLaVA-Phi(30億パラメーター):71.4、-、35.9、48.6;moondream1(16億パラメーター):74.3、56.3、30.3、39.8。
moondream 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34