PixelLLM

ピクセルアライメント言語モデル

一般製品画像画像位置特定言語モデル
PixelLLMは、画像位置特定タスクのための視覚言語モデルです。入力された位置に基づいて記述的なテキストを生成したり、入力されたテキストに基づいてピクセル座標を生成し、高密度な位置特定を行うことができます。Localized Narrativeデータセットで事前学習することにより、単語と画像ピクセル間の対応関係を学習しています。PixelLLMは、指示に基づく位置特定、位置条件付き記述、高密度物体記述など、様々な画像位置特定タスクに適用でき、RefCOCOやVisual Genomeなどのデータセットで最先端の性能を達成しています。
ウェブサイトを開く

PixelLLM 最新のトラフィック状況

月間総訪問数

963

直帰率

64.77%

平均ページ/訪問

1.4

平均訪問時間

00:00:06

PixelLLM 訪問数の傾向

PixelLLM 訪問地理的分布

PixelLLM トラフィックソース

PixelLLM 代替品