最近、バイトダンスのDoubao大規模言語モデルチームとM-A-Pオープンソースコミュニティは共同で、285の大学院レベルの学科を網羅し、26,529問の専門的な問題を含む知識推論ベンチマークテストであるSuperGPQAを発表しました。

QQ20250304-140137.pngQQ20250304-140137.png

このデータセットは、数学や物理学などの主要な学科だけでなく、軽工業、農業、サービス科学などのニッチな学科も初めて評価体系に含めており、既存のベンチマークテストにおけるニッチな知識分野の空白を埋めています。SuperGPQAは、オープンソースモデルとクローズドソースモデルのパフォーマンスの差を明らかにするために使用されており、AI開発の重要なツールとなっています。

従来のベンチマーク(MMLUやGPQAなど)は、学科のカバー率が50個未満で、ニッチな学科の割合は5%未満であり、データソースが単一(Wikipediaなど)で、クラウドソーシングによるアノテーションが信頼性に欠けるため、複雑な状況でのモデルの推論能力を測ることが困難でした。SuperGPQAは、専門家とLLMの協調メカニズムを通じて、権威のある情報源から問題を選別し、半年かけて構築されました。問題は平均9.67個の選択肢が提供され、42.33%が数学的計算または形式的推論を必要とするもので、広さと深さを兼ね備えています。実験によると、最良のモデルであるDeepSeek-R1の正確率はわずか61.82%であり、現在の巨大言語モデルには、多様な知識分野においてまだ改善の余地があることを示しています。

QQ20250304-140147.png

SuperGPQAは、専門家による初期問題の選別、標準化された転写、多層品質検査(ルールによるフィルタリング、LLMによる検出、専門家による再審査)の3段階のプロセスにより、品質を向上させています。評価結果によると、指示微調整はパフォーマンスを大幅に向上させますが(DeepSeek-V3は基本版を上回るスコア)、困難な問題ではオープンソースモデルはクローズドソースモデルに依然として劣っています。

論文リンク:https://arxiv.org/pdf/2502.14739

データリンク:https://huggingface.co/datasets/m-a-p/SuperGPQA

コードリンク:https://github.com/SuperGPQA/SuperGPQA