国内で注目を集める人工知能企業Moonshot AI(月之暗面)は、先日、2つの新しいビジョン言語モデル、Kimi-VLKimi-VL-Thinkingのオープンソースリリースを発表しました。これらのモデルは、軽量なアーキテクチャ優れたマルチモーダル理解と推論能力を備え、GPT-4oを含む多くの大型モデルを凌駕する結果を複数の主要なベンチマークテストで達成し、業界から大きな注目を集めています。

QQ_1744593881911.png

軽量ながらパワフルな性能

数百億、さらには数千億ものパラメータを持つ主流の大規模モデルとは異なり、Kimi-VLとKimi-VL-ThinkingはMoE(Mixture-of-Experts、混合専門家)アーキテクチャを採用しており、活性化パラメータは約30億です。これは、実行と展開がより効率的で、計算リソースの要件が低いことを意味します。しかし驚くべきことに、このような軽量なアーキテクチャであっても、これらのモデルは複数のベンチマークテストで目覚ましい成果を収め、その強力な推論能力を十分に示しています。

マルチモーダル知能のさらなる向上:数学的推論とエージェント操作で優れた性能

Kimi-VLシリーズモデルは、マルチモーダル推論エージェント能力において優れた性能を発揮します。モデルのマルチモーダル数学的推論能力をテストするMathVisionベンチマークテストで、Kimi-VLは36.8%というスコアを達成しました。これは、パラメータ数が10倍以上も多い大規模モデルに匹敵する結果です。

さらに印象的なのは、エージェントの操作能力を評価するScreenSpot-Proタスクにおいて、Kimi-VLが34.5%のスコアを達成したことでしょう。これは、このモデルが複雑なユーザーインターフェースを理解し、それに対応する操作を実行する上で優れた潜在能力を持っていることを示しており、よりスマートな人間とコンピュータのインタラクションアプリケーションの開発のための基礎を築きます。

QQ_1744593893636.png

高解像度画像処理のネイティブサポート

MoonViTアーキテクチャのおかげで、Kimi-VLシリーズモデルは強力な画像テキスト認識と理解能力を備えています。OCRBenchベンチマークテストでは、867という高いスコアを獲得し、高解像度画像の処理と複雑なテキストの認識における卓越した性能を証明しています。この機能は、大量の画像やドキュメント情報を含むアプリケーションシナリオにとって非常に重要です。

超ロングコンテキスト理解

超ロングコンテキスト理解能力は、Kimi-VLシリーズモデルのもう一つの大きな特徴です。最大128Kトークンのコンテキスト入力をサポートしています。つまり、モデルはより長いドキュメント、ビデオなどの複雑なロングテキスト情報を同時に処理し、より深い理解と分析を行うことができます。

ロングドキュメント理解テストMMLongBench-Docでは35.1%、ロングビデオ理解テストLongVideoBenchでは64.5%という高スコアを獲得しました。これにより、Kimi-VLシリーズモデルは、大量のコンテキスト情報を処理する必要があるドキュメントQ&A、ビデオ分析などのシナリオで大きな応用可能性を秘めています。

オープンソース化による共有:マルチモーダル知能の未来を共に創造する

Moonshot AIは、今回のKimi-VLとKimi-VL-Thinkingのオープンソースリリースは、汎用マルチモーダル知能への小さな一歩に過ぎないと強調しています。彼らはオープンソース化を通じて、より多くのコミュニティ開発者をモデルのアプリケーション開発に巻き込み、Kimi-VLシリーズモデルのドキュメントQ&A、インターフェース操作、画像テキスト理解、ビデオ分析などの分野における無限の可能性を探求したいと考えています。

現在、開発者は以下の方法でKimi-VLシリーズモデルに関する情報とコードを入手できます。

  • GitHub: https://github.com/MoonshotAI/Kimi-VL

  • https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct