人工知能(AI)モデルの進化は目覚ましく、技術開発者は性能向上に努める一方で、ユーザーからはモデルの表現の正確性に対する懸念も上がっています。この問題に対処するため、ジェフリー・ヒントン(Geoffrey Hinton)氏が設立したVector Instituteは、人工知能研究のための「現状評価研究」を発表しました。この研究では、インタラクティブなランキングを通じて、11の最先端のオープンソースとクローズドソースのモデルを包括的に評価し、数学、一般知識、コーディング、セキュリティなど16のベンチマークを網羅しています。

Vector InstituteのAIインフラ&リサーチエンジニアリングマネージャーであるジョン・ウィレス(John Willes)氏は、「研究者、開発者、規制当局、エンドユーザーは、結果を独立して検証し、モデルの性能を比較し、独自のベンチマークと評価を構築することで、改善と責任の履行を促進できます。」と述べています。

大規模モデル メタバース (2)

画像注記:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyによって提供されています。

今回の評価で、最も優れた性能を示したのはDeepSeekとOpenAIのo1であり、一方、Command R+は性能が低く、これはテストで使用されたモデルの中で最も規模が小さく、最も古いモデルであることが主な原因でした。

研究によると、クローズドソースモデルは、複雑な知識と推論を必要とするタスクでは、一般的にオープンソースモデルよりも優れた性能を示しましたが、DeepSeekの優れた成績は、オープンソースモデルも競争力を維持できることを示しています。ウィレス氏は、「単純なタスクではこれらのモデルは相当な能力を示しますが、タスクの複雑さが増すにつれて、推論能力と理解能力が大幅に低下することが分かりました。」と指摘しています。

さらに、11のモデル全てが、現実の問題解決能力を評価する「代理ベンチマーク」で課題に直面しており、特にソフトウェアエンジニアリングや、オープンな推論と計画を必要とするその他のタスクでは、まだ改善の余地が大きいです。この問題に対処するため、Vector Instituteは、画像とテキストの処理能力を評価するマルチモーダル巨大マルチタスク理解(MMMU)ベンチマークを開発しました。

マルチモーダル理解の評価では、o1は、特にさまざまなフォーマットと難易度レベルにおいて「卓越した」能力を示しました。しかしウィレス氏は、テキスト、画像、音声入力などを統一的に処理できる真のマルチモーダルシステムを実現するには、さらなる努力が必要だと強調しています。

評価における課題として、ウィレス氏は、モデルが馴染みのある評価データセットでは良好な性能を示すものの、新しいデータセットでは優れた性能を示さなくなる「評価データの漏洩」が重要な問題であると指摘しています。彼は、より革新的なベンチマークと動的な評価を開発することが、この問題解決の鍵となると考えています。