LLaVA
大規模言語とビジョンアシスタント。マルチモーダルチャットと科学的QAを実現
一般製品画像マルチモーダルチャット
LLaVAは、ビジョンエンコーダとVicunaを組み合わせた、新しいエンドツーエンドでトレーニングされた大規模マルチモーダルモデルです。印象的なチャット能力を実現し、マルチモーダルGPT-4の精神を模倣し、科学的QAにおいて新たな最高精度を達成しました。LLaVAのユースケースには、日常ユーザーアプリケーションにおけるマルチモーダルチャットと、科学分野におけるマルチモーダル推論が含まれます。LLaVAのデータ、コード、チェックポイントは研究目的のみに限定され、CLIP、LLaMA、Vicuna、GPT-4のライセンスに準拠しています。
LLaVA 最新のトラフィック状況
月間総訪問数
80956
直帰率
52.28%
平均ページ/訪問
1.2
平均訪問時間
00:00:34