PixelLLM
ピクセルアライメント言語モデル
一般製品画像画像位置特定言語モデル
PixelLLMは、画像位置特定タスクのための視覚言語モデルです。入力された位置に基づいて記述的なテキストを生成したり、入力されたテキストに基づいてピクセル座標を生成し、高密度な位置特定を行うことができます。Localized Narrativeデータセットで事前学習することにより、単語と画像ピクセル間の対応関係を学習しています。PixelLLMは、指示に基づく位置特定、位置条件付き記述、高密度物体記述など、様々な画像位置特定タスクに適用でき、RefCOCOやVisual Genomeなどのデータセットで最先端の性能を達成しています。
PixelLLM 最新のトラフィック状況
月間総訪問数
963
直帰率
64.77%
平均ページ/訪問
1.4
平均訪問時間
00:00:06