MiniGemini
画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。
一般製品プログラミングマルチモーダル視覚言語モデル
Mini-Geminiは、2Bから34Bパラメーターの様々なサイズを持つ、密集型およびMoE構造の大規模言語モデルです。画像の理解、推論、生成能力を備えたマルチモーダル視覚言語モデルです。LLaVAを基盤とし、2つの視覚エンコーダを用いて低解像度と高解像度の視覚埋め込みを生成します。高解像度領域と低解像度視覚クエリ間でパッチレベルの情報マイニングを行い、テキストと画像を融合することで、理解と生成タスクを実行します。COCO、GQA、OCR-VQA、VisualGenomeなど、複数の視覚理解ベンチマークに対応しています。
MiniGemini 最新のトラフィック状況
月間総訪問数
1013
直帰率
50.36%
平均ページ/訪問
1.0
平均訪問時間
00:00:00