MiniGemini

画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

一般製品プログラミングマルチモーダル視覚言語モデル
Mini-Geminiは、2Bから34Bパラメーターの様々なサイズを持つ、密集型およびMoE構造の大規模言語モデルです。画像の理解、推論、生成能力を備えたマルチモーダル視覚言語モデルです。LLaVAを基盤とし、2つの視覚エンコーダを用いて低解像度と高解像度の視覚埋め込みを生成します。高解像度領域と低解像度視覚クエリ間でパッチレベルの情報マイニングを行い、テキストと画像を融合することで、理解と生成タスクを実行します。COCO、GQA、OCR-VQA、VisualGenomeなど、複数の視覚理解ベンチマークに対応しています。
ウェブサイトを開く

MiniGemini 最新のトラフィック状況

月間総訪問数

1013

直帰率

50.36%

平均ページ/訪問

1.0

平均訪問時間

00:00:00

MiniGemini 訪問数の傾向

MiniGemini 訪問地理的分布

MiniGemini トラフィックソース

MiniGemini 代替品