昆仑万维は本日、開発したSkywork R1V多モーダル推論モデルの正式オープンソース化を発表しました!これは中国初の産業界によるオープンソースの多モーダル推論モデルであるだけでなく、中国のAI技術が、多モーダル理解と推論の分野で画期的な一歩を踏み出したことを意味します!本日より、モデルのウェイトと技術レポートが完全に公開されます!
AIモデルが画像を理解するだけでなく、人間のように論理的推論を行い、複雑な視覚的問題を解決できると想像してみてください。これはもはやSF映画の場面ではなく、Skywork R1Vが実現しつつある能力です!このモデルは「AI界のシャーロック・ホームズ」のような存在で、綿密な分析により、膨大な視覚情報から深層的な意味を抽出し、正確な答えを導き出します。視覚ロジックパズルを解いたり、高度な視覚数学の問題を解いたり、画像内の科学現象を分析したり、さらには医学画像診断の推論を支援したりと、Skywork R1Vは驚異的な能力を発揮します。

AIモデルの「知能」を測るには、データが最も説得力があります!推論能力において、Skywork R1Vは権威あるMATH500とAIMEベンチマークテストで、それぞれ94.0と72.0という非常に高いスコアを獲得しました!これは、複雑な数学の問題を解いたり、厳密な論理的推論を行ったりする際に、Skywork R1Vが容易にこなせることを意味します。さらに驚くべきことに、その強力な推論能力は視覚分野にも成功裏に「移植」され、MMMUとMathVistaなどの視覚推論ベンチマークテストで、それぞれ69と67.5の高得点を獲得しました!これらの強力なデータは、Skywork R1Vがトップレベルの論理推論と数学分析能力を備えていることを直接的に証明しています!

昆仑万维は、Skywork R1Vモデルの背景には、3つの重要な技術革新が凝縮されていると誇りを持って述べています。
まず、テキスト推論能力の多モーダル効率的転移です。昆仑万維チームは独自の道を切り開き、Skywork-VLの視覚プロジェクターを巧みに利用することで、莫大な費用をかけて言語モデルと視覚エンコーダーを再トレーニングする必要がなく、「カンフーの気功」のように、元々強力なテキスト推論能力を視覚タスクに完璧に移行させ、元のテキスト推論能力にも全く影響を与えません!
次に、多モーダル混合型トレーニング(Iterative SFT+GRPO)です。このトレーニング方法は、モデルに「混合栄養食」を与えているようなもので、反復的監督微調整とGRPO強化学習を巧みに組み合わせることで、段階的かつ戦略的に視覚・テキスト表現を整合させ、最終的にクロスモーダルタスクの高効率融合を実現し、モデルのクロスモーダル能力を飛躍的に向上させました!MMMUとMathVistaベンチマークテストでは、Skywork R1Vのパフォーマンスは、より大規模なクローズドソースモデルに匹敵するほどです!
最後に、適応長思考連鎖蒸留です。昆仑万維チームは革新的に「インテリジェントブレーキ」メカニズムを提案しました。モデルは視覚・テキストの複雑さに応じて、推論チェーンの長さを適応的に調整し、「考えすぎ」を防ぎ、推論精度を維持しながら推論効率を大幅に向上させます!さらに多段階自己蒸留戦略と組み合わせることで、モデルのデータ生成と推論品質がさらに向上し、複雑な多モーダルタスクでもより柔軟に対応できます!

Skywork R1Vのオープンソース化は、中国のみならず世界のAI研究者や開発者にとって、強力な多モーダル推論「ツール」を提供することになります。その登場は、多モーダルAI技術の革新と応用を加速させるだけでなく、AI技術の各業界への深い融合を促進し、よりスマートでより良い未来を切り開くでしょう!