MAVISは、マルチモーダル大規模言語モデル(MLLM)向けの数学ビジョン指令微調整モデルです。主に、視覚的コード化された数学図表、図表と言語の対応付け、数学的推論能力の向上を通じて、MLLMの視覚的数学問題解決能力を強化します。このモデルには、2つの新たに策定されたデータセット、数学ビジョンエンコーダ、数学MLLMが含まれており、3段階のトレーニングパラダイムを通じて、MathVerseベンチマークで最先端の性能を達成しています。