MiniGemini

画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

一般製品プログラミングマルチモーダル視覚言語モデル

Mini-Geminiは、2Bから34Bパラメーターの様々なサイズを持つ、密集型およびMoE構造の大規模言語モデルです。画像の理解、推論、生成能力を備えたマルチモーダル視覚言語モデルです。LLaVAを基盤とし、2つの視覚エンコーダを用いて低解像度と高解像度の視覚埋め込みを生成します。高解像度領域と低解像度視覚クエリ間でパッチレベルの情報マイニングを行い、テキストと画像を融合することで、理解と生成タスクを実行します。COCO、GQA、OCR-VQA、VisualGenomeなど、複数の視覚理解ベンチマークに対応しています。

低解像度/高解像度デュアル視覚エンコーダ
パッチレベル情報マイニング
大規模言語モデルベースのテキストと画像の融合
視覚理解と生成タスクへの対応

Mini-Geminiは、テキストと画像の両方を扱う必要がある様々な用途に適用できます。例えば、Visual Question Answering、画像キャプション生成、画像編集などです。

与えられた画像の内容に関する質問に答える
画像のテキスト説明を生成する
指示に従って画像を編集し、新しい画像を生成する

ウェブサイトを開く

MiniGemini 最新のトラフィック状況

月間総訪問数

1013

直帰率

50.36%

平均ページ/訪問

1.0

平均訪問時間

00:00:00

MiniGemini 訪問数の傾向

MiniGemini 訪問地理的分布

MiniGemini トラフィックソース

MiniGemini 代替品

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

プログラミング

•マルチモーダル•視覚言語モデル

2424

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

画像

Best AI Websites & Tools

MiniGemini

MiniGemini 最新のトラフィック状況

MiniGemini 訪問数の傾向

MiniGemini 訪問地理的分布

MiniGemini トラフィックソース

MiniGemini 代替品

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

Pixtral-Large-Instruct-2411 — 1240億パラメータのマルチモーダル大規模言語モデル

mPLUG-Owl3 — 長画像シーケンスを理解するマルチモーダル大規模言語モデル。

M2RAG — マルチモーダルコンテキストにおける検索強化生成のためのベンチマークテストコードリポジトリです。

Janus Pro — Janus Proは、高度なAI画像生成と理解プラットフォームであり、高品質のビジュアルインテリジェンスサービスを提供します。

MNN大規模言語モデル Androidアプリ — 多様なモダリティに対応した、フル機能の巨大言語モデルAndroidアプリです。

Janus-Pro-7B — Janus-Pro-7Bは、マルチモーダルな理解と生成を統合した、新しい自己回帰フレームワークです。

VideoLLaMA3 — VideoLLaMA3は、画像と動画の理解に特化した最先端のマルチモーダル基盤モデルです。

Doubao-1.5-pro — Doubao-1.5-proは、推論性能とモデル能力の究極的なバランスに重点を置いた、高性能なスパースMoE（Mixture of Experts）大規模言語モデルです。

InternVL2_5-78B-MPO — これは、優れた総合性能を示す高度なマルチモーダル大規模言語モデルシリーズです。

MinMo — MinMoは、シームレスな音声インタラクションを可能にするマルチモーダル大規模言語モデルです。

InternVL2.5-38B-MPO — InternVL2.5-MPOシリーズモデルは、InternVL2.5と混合嗜好最適化に基づき、卓越した性能を発揮します。

InternVL2_5-26B-MPO-AWQ — 高度洗練されたマルチモーダル大規模言語モデルであり、卓越したマルチモーダル推論能力を備えています。

VITA-1.5 — VITA-1.5：リアルタイムの視覚と音声インタラクションを備えたGPT-4o級のマルチモーダル大規模言語モデル

InternVL2_5-8B-MPO — 優れた総合性能を備えたマルチモーダル大規模言語モデルです。

InternVL2_5-4B-MPO — 卓越な総合性能を発揮するマルチモーダル大規模言語モデル

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

Valley-Eagle-7B — テキスト、画像、ビデオデータを処理するマルチモーダル大規模言語モデル

Valley — テキスト、画像、動画データを処理するマルチモーダル大規模言語モデル

FlagAI — 一站式の大規模言語モデルアルゴリズム、モデル、最適化ツールを提供するオープンソースプロジェクト

InternVL2_5-2B-MPO — 高度先進なマルチモーダル大規模言語モデル

InternVL2_5-1B-MPO — 視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

POINTS-Qwen-2-5-7B-Chat — 最新の視覚言語モデルの進歩

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

InternVL2_5-4B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。

InternVL2_5-2B — 画像とテキストの深層的な相互作用をサポートする、マルチモーダル大規模言語モデルです。

InternVL2_5-1B — 画像とテキストの理解をサポートするマルチモーダル大規模言語モデル

InternVL2_5-8B — 画像とテキストの相互理解をサポートする、マルチモーダル大規模言語モデルです。

InternVL2_5-26B — 視覚と言語理解を融合したマルチモーダル大規模言語モデル。