DeepSeek-VL2

視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

一般製品画像視覚言語モデルマルチモーダル理解

DeepSeek-VL2は、大規模なMixture-of-Experts (MoE) 方式の視覚言語モデルシリーズであり、前世代のDeepSeek-VLから大幅な性能向上を実現しています。このモデルシリーズは、視覚的な質問応答、光学文字認識 (OCR)、文書・表・グラフの理解、および視覚的局所化などのタスクにおいて卓越した能力を示します。DeepSeek-VL2には、活性化パラメータ数がそれぞれ10億、28億、45億の3つのバリエーションがあります: DeepSeek-VL2-Tiny、DeepSeek-VL2-Small、およびDeepSeek-VL2。活性化パラメータ数が同等またはそれ以下である既存のオープンソースの密集型およびMoEベースのモデルと比較して、DeepSeek-VL2は競争力のある、あるいは最先端の性能を達成しています。

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要

DeepSeek-VL2

DeepSeek-VL2 最新のトラフィック状況

DeepSeek-VL2 訪問数の傾向

DeepSeek-VL2 訪問地理的分布

DeepSeek-VL2 トラフィックソース

DeepSeek-VL2 代替品

DeepSeek-VL2 — 視覚と言語能力を融合した、高度なマルチモーダル理解モデルです。

Aya Vision 8B — 8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。

Figure AI Helix — Helixは、汎用人型ロボット制御のための視覚・言語・行動モデルです。

SigLIP2 — SigLIP2は、Googleが開発した、ゼロショット画像分類に使用される多言語視覚言語エンコーダーです。

R1-V — 低コストで視覚言語モデルの汎化能力を強化。わずか3ドル未満。

PaliGemma 2-3b-pt-224 — PaliGemma 2は、多言語に対応した画像とテキストの処理タスクをサポートする強力な視覚言語モデルです。

PaliGemma 2-3b-pt-448 — PaliGemma 2は、多様な視覚言語タスクに対応する強力な視覚言語モデルです。

CogAgent-9B-20241220 — CogAgent-9B-20241220は、視覚言語モデルに基づくGUIエージェントモデルです。

vision-parse — 視覚言語モデルを利用してPDFをMarkdownに変換します。

CogAgent — オープンソースのエンドツーエンドの視覚言語モデル（VLM）ベースのGUIエージェント

DeepSeek-VL2-Tiny — 高度発達した大規模混合専門家（MoE）ビジョン言語モデル

POINTS-Yi-1.5-9B-Chat — 微信AIの新技術を統合した、最新の視覚言語モデルです。

POINTS-Qwen-2-5-7B-Chat — 最新の視覚言語モデルの進歩

Florence-VL — 視覚言語モデル強化ツール。生成型視覚エンコーダと深層幅融合技術を組み合わせました。

Qwen2-VL-2B — 最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。

LLaVA-o1 — 段階的推論が可能な視覚言語モデル

PromptFix — 人間の指示に従って写真を修復・編集するフレームワーク

ROCKET-1 — オープンワールドインタラクションを習得した視覚的・時間的コンテキストプロンプトモデル

VisRAG — 視覚言語モデルに基づく検索拡張型生成モデル

ColPali — 視覚言語モデルによる高効率文書検索ツール

Helpful DoggyBot — 四足歩行ロボット室内移動OS

InternLM-XComposer-2.5 — 多機能大型視覚言語モデル

DriveVLM — 自動運転と視覚言語モデルの融合

PixelProse — 1600万枚を超える合成画像記述を提供する大規模画像記述データセットです。

EVE — エンコーダフリーの視覚言語モデル。効率的でデータ駆動型です。

RL4VLM — 強化学習を用いて大規模な視覚言語モデルを意思決定エージェントとして微調整します。

PaliGemma — Googleが開発した最先端のオープンソース視覚言語モデル

MMStar — 大規模視覚言語モデルを評価するためのエリートベンチマークセット

MiniGemini — 画像とテキストの両方を理解および生成できるマルチモーダル大規模言語モデルです。

大規模ワールドモデル — 動画と言語を理解する大規模ワールドモデル