先日、OpenAIのグローバルアフェアーズ担当副社長であるアナ・マカンジュ氏は、国連の「未来サミット」において、AIのバイアスに関する見解を発表しました。
彼女は、OpenAIのo1のような「推論」モデルは、AIシステムにおけるバイアスを大幅に削減できると述べました。では、o1はどのようにそれを実現するのでしょうか?マカンジュ氏は、これらのモデルは、回答におけるバイアスを自己認識し、「有害な」回答を生成しないというルールにより忠実に従うことができると説明しました。
彼女は、o1モデルは問題を処理する際に、自身の回答を評価するためにより多くの時間を費やし、自己チェックを行うと述べました。「これは問題解決の方法だ」と判断し、その後自身の回答を再検討し、「ああ、ここに推論上の欠陥があるかもしれない」と見つけることができる、と説明しました。彼女はさらに、o1は自身のバイアス分析において「ほぼ完璧」に機能し、技術の進歩に伴い、その性能は向上していくと強調しました。
しかし、「ほぼ完璧」という表現は少々誇張されているように思われます。OpenAIの内部テストでは、自社のGPT-4oを含む「非推論」モデルと比較して、o1はいくつかのバイアステストで必ずしも良好な結果を示さなかったことが判明しました。人種、性別、年齢に関する問題において、o1は特定の状況下ではGPT-4oよりも劣る結果となりました。潜在的な差別においてはo1の方が優れていましたが、顕在的な差別に関しては、年齢と人種の問題でより顕著でした。
さらに興味深いことに、o1の廉価版であるo1-miniは、さらに悪い結果を示しました。テストによると、o1-miniは、性別、人種、年齢における顕在的な差別の確率がGPT-4oよりも高く、年齢に関する潜在的な差別もより顕著でした。
その上、現在の推論モデルには多くの限界があります。OpenAIも、o1は特定のタスクにおいてわずかなメリットしか提供しないことを認めています。応答速度が遅く、10秒以上かかる質問もあります。また、o1のコストも無視できません。運用コストはGPT-4oの3~4倍です。
もしマカンジュ氏が述べる推論モデルが、公平なAIを実現するための最良の方法だとすれば、実行可能な代替手段となるためには、バイアス以外の面でも改善が必要です。そうでなければ、莫大な資金力があり、様々な遅延や性能の問題を受け入れる意思のある顧客だけが、真の恩恵を受けることになります。
要点:
🌟 OpenAIのo1モデルはAIのバイアスを大幅に削減できると謳われているが、テスト結果はその期待に沿わなかった。
💡 o1は潜在的な差別においてはGPT-4oよりも優れているが、顕在的な差別においては劣っている。
💰 推論モデルo1はコストが高く、動作が遅い。今後、様々な面での改善が必要となる。