llama3v
Llama3 8Bベースの最先端視覚モデル
一般製品画像視覚モデル多様な体学習
llama3vは、Llama3 8Bとsiglip-so400mに基づく最先端(State of the Art)の視覚モデルです。Hugging Faceでモデルウェイトが公開されており、高速なローカル推論をサポートするオープンソースのVLLM(視覚言語多様体学習モデル)です。推論コードも公開されています。本モデルは画像認識とテキスト生成を組み合わせ、投影層を追加することで画像特徴をLLaMA埋め込み空間にマッピングし、画像理解能力を向上させています。
llama3v 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34