Anthropic社の最新モデルClaude 3.5 Sonnetは、最近の技術評価で注目すべき性能を示し、専門の博士レベルを上回る結果となりました。Graduate-Level Question Answering(GPQA)テストでは、67.2%というスコアを獲得。これは大規模言語モデルがこの種の評価で初めて65%を突破しただけでなく、高度な科学知識に関する質問の理解と回答において新たな高みに達したことを意味します。

GQrRBTfa0AAwXFe.jpg

GPQAは、大学院レベルの科学知識に関する質問応答能力を測定するベンチマークテストであり、複雑で高度な質問が数多く含まれており、モデルの推論能力と知識統合能力に高い要求が課せられます。この難しいテストで、一般的な博士号取得者の平均スコアは約34%、専門分野の博士号取得者の平均スコアは65%でした。特筆すべきは、GPQAで60%のスコアを獲得した言語モデルは、IQ150相当の知能レベルを持つと推定されることです。

GQrRofibYAAK9Mx.jpg

現在、GPT-4oとGPT-4TのGPQA評価における具体的なデータはまだありませんが、現時点の情報から推測すると、Claude 3.5 Sonnetはこれらのモデルを上回る性能を示しているようです。他の関連評価(例:0-shot CoT評価)でも、Claude 3.5 SonnetはGPT-4o(53.6%)とGPT-4T(48.0%)を上回るスコアを獲得しており、言語理解と質問応答におけるその優位性をさらに証明しています。

Anthropic社のこの成果は、Claude 3.5 Sonnetの強力な能力を示しただけでなく、大規模言語モデルが高度な知識に関する質問応答タスクを処理する上での新たな基準を確立しました。技術の進歩に伴い、これらのモデルの様々な分野への応用可能性は、今後ますます広がるでしょう。