昆侖万維:マルチモーダル大規模言語モデルが実験的訓練段階に突入

Ovis2はアリババ国際チームが提案したOvisシリーズモデルの最新バージョンです。前の1.6バージョンと比べて、Ovis2はデータ構築とトレーニング手法において顕著な改善がなされています。小規模モデルの能力密度を強化しただけでなく、指示微調整と好み学習を通じて思考チェーン(CoT)推論能力を大幅に向上させました。さらに、Ovis2は動画および複数の画像処理能力を導入し、多言語能力と複雑なシーンでのOCR能力を強化し、モデルの実用性を大幅に向上させました。
2月8日、昆侖万維グループ傘下の天工AIは、「DeepSeek R1+ インターネット検索」機能を正式に上线しました。これはユーザーにとって大きなアップデートとなります。今回のアップグレードにより、DeepSeekのインターネット検索機能が使用できない問題が解決されただけでなく、R1バージョンの時折発生するクラッシュの問題も改善され、AIの安定性とユーザーエクスペリエンスが大幅に向上しました。
アリババ達摩院は先日、Valley2というマルチモーダル大規模言語モデルを発表しました。このモデルはECシーン向けに設計されており、拡張可能な視覚言語アーキテクチャを通じて、様々な分野のパフォーマンス向上と、ECおよび短編動画シーンにおける応用範囲の拡大を目指しています。Valley2はLLMのバックボーンとしてQwen2.5を採用し、SigLIP-384ビジョンエンコーダーとMLP層、畳み込み演算を組み合わせることで、効率的な特徴変換を実現しています。
マルチモーダル大規模言語モデル(MLLM)の進歩により、画像とビデオ関連のタスク(ビジュアルクエスチョン・アンサーリング、ナレーション生成、インタラクティブ編集など)は革命的な進歩を遂げました。しかし、ビデオコンテンツのきめ細かい理解を実現するには、依然として大きな課題が残されています。この課題には、ピクセルレベルのセグメンテーション、言語記述を伴うトラッキング、特定のビデオプロンプトに対するビジュアルクエスチョン・アンサーリングなどのタスクが含まれます。最新の最先端のビデオ認識モデルは、セグメンテーションとトラッキングのタスクで優れた性能を発揮していますが、オープンエンドな言語理解と対話能力はまだ不十分です。さらに