2024年の高考シーズン、9つのAI大規模言語モデルが前例のない挑戦に挑みました。それは、特に難易度が高い新課標Ⅰ卷(河南卷)を含む高考への受験です。メディアが主導したこのテストは、AIの学術分野における能力を検証するだけでなく、AIと人間の知性の違いを観察するユニークな機会を提供しました。
参加した9つのAIのうち、4つが河南省高考の第一志願合格ラインを突破しました。GPT-4oは562点の高得点で1位を獲得し、合格ラインを41点上回りました。また、バイトダンスの豆包は542.5点で僅差の2位となり、国内モデルの中でもトップクラスの実力を見せつけました。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
AIは文系科目で優れた成績を収め、特に国語と英語で高い能力を示しました。一方、理系科目、特に数学では満足のいく結果とはなりませんでした。言語系の科目でAIが明確な優位性を示しており、古詩文の理解力には感銘を受けました。
簡単な推論問題ではAIはそれなりの成績でしたが、複雑な導出や証明が必要な問題では不十分な結果となり、論理的思考能力の向上が課題であることが示されました。文系の総合科目では地理が最も低得点で、理系の総合科目では生物が比較的良い成績でした。GPT-4oは政治で91.5点の高得点を記録しました。
テスト方法と採点基準
テスト回数:ランダム性の影響を減らすため、すべての科目を2回テストし、平均点を最終成績としました。
入力形式:数式はMarkdown/LaTeX形式で入力し、画像問題はモデルの認識能力に基づき、適切な画像とテキストを入力しました。
テスト操作:専門のAIデータサービスプロバイダーが統一された手順でテスト画面のスクリーンショットを撮影し、テストの公平性を確保しました。
採点方法:人間の受験者と同じ採点基準を採用し、採点の公平性を確保しました。
今回のAIによる高考受験は、AIの特定分野における強みを明らかにすると同時に、論理的推論や数学的証明における弱点も露呈しました。あるAI受験者が作文で引用したように「路漫漫其修遠兮、吾将上下而求索」という言葉は、AIの発展を象徴するだけでなく、人類が未知の世界を探求し続ける様子を鮮やかに描写しています。今回のテストを通して、AIの知能レベルについてより深く理解し、AIの将来の発展方向にとって貴重な参考資料となりました。
受験者には、OpenAIのGPT-4o、バイトダンスの豆包、バイドゥの文心4.0など、著名なAI製品が含まれており、今回の高考での彼らの成績は、AI技術の発展に大きな影響を与えることは間違いありません。