アリババ達摩院は最近、Valley2という名前のマルチモーダル大規模言語モデルを発表しました。このモデルはECサイトのシナリオに基づいて設計されており、拡張可能な視覚言語アーキテクチャを通じて、様々な分野のパフォーマンスを向上させ、ECサイトと短編動画のシナリオにおける応用範囲を拡大することを目指しています。Valley2は、LLMのバックボーンとしてQwen2.5を採用し、SigLIP-384ビジュアルエンコーダーと組み合わせ、MLP層と畳み込みを使用して効率的な特徴変換を行います。革新的な点は、多様な現実世界の入力の処理における柔軟性とトレーニング推論効率を高めるために、大規模な視覚語彙、畳み込みアダプター(ConvAdapter)、Eagleモジュールを導入していることです。
Valley2のデータは、OneVisionスタイルのデータ、ECサイトと短編動画分野向けのデータ、そして複雑な問題解決のための連鎖思考(CoT)データで構成されています。トレーニングプロセスは、テキストとビジョンのアライメント、高品質な知識学習、指示微調整、そして連鎖思考による後トレーニングの4つの段階に分かれています。実験では、Valley2は複数の公開ベンチマークテストで優れたパフォーマンスを示し、特にMMBench、MMStar、MathVistaなどのベンチマークで高いスコアを獲得し、Ecom-VQAベンチマークテストでも同規模の他のモデルを上回りました。
今後、アリババ達摩院は、テキスト、画像、動画、音声モダリティを網羅した万能モデルを発表し、Valleyベースのマルチモーダル埋め込みトレーニング手法を導入して、下流の検索と検出アプリケーションをサポートする予定です。
Valley2の発表は、マルチモーダル大規模言語モデル分野における重要な進歩を示しており、構造の改良、データセットの構築、トレーニング戦略の最適化を通じてモデルのパフォーマンスを向上させる可能性を示しています。
モデルリンク:
https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B
コードリンク:
https://github.com/bytedance/Valley
論文リンク:
https://arxiv.org/abs/2501.05901