第三者AIテスト機関Artificial Analysisのデータによると、OpenAIの推論モデルo1を7つの一般的なベンチマークテストで評価するのに2,767.05ドルかかり、一方、非推論モデルGPT-4oはわずか108.85ドルでした。この大きな違いは、AI評価の持続可能性と透明性に関する議論を引き起こしています。
段階的に問題解決を「考える」ことができるAIシステムである推論モデルは、特定の分野では優れた性能を発揮しますが、そのベンチマークテストのコストは従来のモデルよりもはるかに高くなっています。Artificial Analysisは、約10個以上の推論モデルの評価に合計5,200ドルを費やしており、これは80個以上の非推論モデルの評価費用(2,400ドル)のほぼ2倍です。
画像出典:AI生成画像、画像ライセンス提供元Midjourney
コストの違いは主に、推論モデルが生成する大量のトークンに起因します。例えば、o1はテストで4400万個以上のトークンを生成しましたが、これはGPT-4oのおよそ8倍です。ベンチマークテストがより複雑になり、現実世界のタスクを評価する能力が高まるにつれて、トップレベルのモデルの単位トークンあたりのコストの上昇(OpenAIのo1-proは100万トークンの出力あたり600ドルの料金)により、これらのモデルの性能を独立して検証することが非常に高価になっています。
いくつかのAIラボはベンチマークテスト機関に無料または補助金付きのアクセスを提供していますが、専門家はこれにより評価の客観性が損なわれる可能性があると懸念しています。General ReasoningのCEOであるRoss Taylor氏は、「科学的な観点から見ると、同じモデルを使って誰も再現できない結果を発表しても、それは科学と言えるでしょうか?」と疑問を呈しています。