人工知能の世界では、大学入試はもはや人間だけの舞台ではありません。最近、上海人工知能研究所が主催した、AIの学力を見せつける「大学入試」が注目を集めています。OpenCompass評価システムを用い、GPT-4oを含む7つのAIモデルが、国語、数学、英語の総合的な能力テストを受けました。

2_1718848649312_ai2023_A_large_classroom_filled_with_rows_of_robots_sitting_at__db532bea-895e-4609-b80c-5fedf4ecf846.png

画像出典:AI生成画像、画像ライセンス提供元Midjourney

このテストでは全国共通テストⅠを使用して、参加するすべてのオープンソースモデルが試験前に公開されていることを確認し、テストの公平性を確保しました。さらに、AIの「答案」は大学入試採点経験のある教師が手動で採点し、実際の採点基準に近づけるよう努めました。

評価に参加したモデルは、フランスのAIスタートアップ企業Mistralがオープンソース化したMixtral8x22B対話型モデル、零一万物社のYi-1.5-34B、智譜AIのGLM-4-9B、上海人工知能研究所のInternLM2-20B-WQX、そしてアリババのQwen2シリーズなど、様々な背景を持つモデルです。GPT-4oはクローズドソースモデルとして評価に参加し、参考として扱われました。

image.png

結果発表では、Qwen2-72Bが303点の合計点で1位、GPT-4oが296点で2位、InternLM2-20B-WQXが295.5点で3位となりました。これらのモデルは国語と英語で優秀な成績を収め、国語の平均正答率は67%、英語は81%に達しました。しかし、数学ではすべてのモデルの平均正答率が36%にとどまり、AIの数学的推論能力にはまだ大きな向上が必要であることが示されました。

採点教師はAIモデルの答案を総合的に分析しました。国語では、現代文の読解は比較的得意でしたが、古典文と作文はやや苦手でした。数学では、公式の記憶力は高いものの、解法における柔軟な応用力が不足していました。英語は全体的に良好な成績でしたが、一部の設問では一部のモデルの正答率が低かったです。

今回の「大規模モデル大学入試」は、AIの学術分野における可能性を示しただけでなく、知識の理解と応用における限界も明らかにしました。技術の進歩に伴い、将来のAIはさらに賢くなり、人類社会により良く貢献すると確信しています。