人工知能の急速な発展に伴い、視覚と言語能力の統合が、視覚言語モデル(VLMs)の画期的な進歩をもたらしました。これらのモデルは、視覚データとテキストデータを同時に処理し理解することを目指しており、画像キャプション生成、視覚質問応答、光学文字認識、多様なモーダルコンテンツ分析など、幅広い用途で活用されています。

VLMsは、自律システムの開発、人機インタラクションの強化、効率的な文書処理ツールの作成において重要な役割を果たし、これら2種類のデータモダリティ間のギャップを効果的に埋めています。しかし、高解像度の視覚データと多様なテキスト入力の処理においては、依然として多くの課題が残されています。

現在、これらの課題の一部は解決されていますが、多くのモデルが静的な視覚エンコーダを採用しており、高解像度や可変入力サイズへの適応性に欠けています。また、事前学習済みの言語モデルと視覚エンコーダの組み合わせは、多様なモーダルタスク向けに最適化されていないため、しばしば非効率性を招きます。複雑性の管理にスパース計算技術を導入したモデルもありますが、様々なデータセットにおける精度が依然として不十分です。さらに、既存モデルのトレーニングデータセットは、多様性とタスク固有性に欠けていることが多く、その性能をさらに制限しています。例えば、多くのモデルは、グラフの解釈や密集した文書の分析などの専門的なタスクでは不十分な性能を示します。

最近、DeepSeek-AIは、全く新しいDeepSeek-VL2シリーズのオープンソース混合専門家(MoE)視覚言語モデルを発表しました。このシリーズのモデルは、視覚エンコーディングの動的スライシング、マルチヘッド潜在的アテンションメカニズム、DeepSeek-MoEフレームワークなど、最先端の革新技術を統合しています。

image.png

DeepSeek-VL2シリーズは、3種類の異なるパラメータ構成を提供しています。

- DeepSeek-VL2-Tiny:33.7億パラメータ(10億活性化パラメータ)

- DeepSeek-VL2-Small:161億パラメータ(28億活性化パラメータ)

- DeepSeek-VL2:275億パラメータ(45億活性化パラメータ)

この拡張性は、様々なアプリケーションのニーズと計算予算への適応性を保証します。

DeepSeek-VL2のアーキテクチャは、計算需要を削減しながら性能を最適化することを目的としています。動的スライシング手法により、高解像度画像の処理においても重要なディテールを失うことなく、文書分析や視覚的ローカリゼーションタスクに非常に適しています。さらに、マルチヘッド潜在的アテンションメカニズムにより、モデルは大量のテキストデータを効率的に処理でき、密集した言語入力の処理に伴う計算コストを削減します。DeepSeek-VL2のトレーニングは、多様な多モーダルデータセットを網羅しており、光学文字認識、視覚質問応答、グラフ解釈など、様々なタスクにおいて優れた性能を発揮します。

image.png

性能テストによると、Small構成は光学文字認識タスクにおいて92.3%の精度を達成し、既存のモデルを大幅に上回っています。視覚的ローカリゼーションベンチマークテストでは、前世代の製品と比較して15%の精度向上を実現しました。

同時に、DeepSeek-VL2は、最先端の精度を維持しながら、計算資源の需要を30%削減しています。これらの結果は、高解像度画像とテキスト処理におけるこのモデルの優位性を示しています。

プロジェクト入口:https://huggingface.co/collections/deepseek-ai/deepseek-vl2-675c22accc456d3beb4613ab

要点:

🌟 DeepSeek-VL2シリーズは、様々なパラメータ構成を提供し、様々なアプリケーションのニーズに対応します。

💡 動的スライシング技術により、高解像度画像処理の効率が向上し、複雑な文書分析に適しています。

🔍 光学文字認識と視覚的ローカリゼーションタスクにおいて優れた性能を発揮し、精度は大幅に向上しています。