アリババ、新たなマルチモーダルモデルQwen2.5-VL-32Bを発表：視覚言語と数学的推論を両立

人工知能分野において、アリババは再び大きなニュースをもたらしました。最近、アリババは最新のマルチモーダルモデル——Qwen2.5-VL-32B-Instructをオープンソース化しました。この新しいモデルはQwen2.5シリーズの一員であり、他のバージョンには3B、7B、72Bなどがあります。32Bバージョンは、性能を維持しながら、ローカルでの実行をより容易にすることに重点を置いています。

Qwen2.5-VL-32Bは強化学習によって最適化されており、多くの点で優れた性能を発揮します。まず、その回答は人間の認知習慣により合致しており、ユーザーはモデルとの対話において、より自然でスムーズなコミュニケーション体験を得ることができます。次に、このモデルは数学的推論能力においても著しい向上を見せています。複雑な数学の問題から幾何学図形の分析まで、Qwen2.5-VL-32Bは正確かつ明確に分析と推論を行うことができます。さらに、画像解析、コンテンツ認識、視覚的論理推論などのタスクにおける精度も著しく向上しており、マルチモーダルデータの処理において、より詳細な分析を提供できます。

Mistral-Small-3.1-24BやGemma-3-27B-ITなどの同種のモデルとの比較において、Qwen2.5-VL-32Bは純粋なテキスト能力において同規模のモデルの中で最高の性能を達成しており、複数のベンチマークテストでは72Bバージョンを上回る結果も出ています。この成果は、アリババが多モーダルAI技術分野におけるリーダーシップを明確に示しています。

例えば、ユーザーがQwen2.5-VL-32Bに交通標識の写真を示し、110キロ離れた目的地に1時間以内に到着できるかどうかを尋ねると、モデルは時間、距離、トラックの速度制限を分析し、段階的に明確に正しい答えを導き出します。この複雑な推論能力は驚くべきものです。

現在、Qwen2.5-VL-32BはHugging Faceでオープンソース化されており、ユーザーはQwen Chatプラットフォームでその強力な機能を直接体験できます。オープンソース化活動の深化に伴い、ますます多くの開発者やユーザーが積極的に参加し、MLX Communityで実験を行い、Hacker Newsなどのソーシャルプラットフォームでも活発な議論が行われています。

明らかに、アリババによる今回の発表は業界で再び大きな話題を呼んでおり、多くの人がオープンソースの力が境界を突破し続け、人工知能の将来の発展に無限の可能性を提供すると考えています。