先日、AI界の著名研究者Andrej Karpathy氏が、物議を醸す見解を発表しました。現在広く支持されている人間のフィードバックに基づく強化学習(RLHF)技術は、真に人間レベルの問題解決能力への必達手段ではない可能性があると主張しています。この発言は、現在のAI研究分野に大きな衝撃を与えました。
RLHFは、ChatGPTなどの大規模言語モデル(LLM)の成功の鍵となる要素とみなされ、AIに理解力、従順性、自然な対話能力を与える「秘密兵器」として称賛されてきました。従来のAIトレーニングプロセスでは、RLHFは通常、事前学習と教師あり微調整(SFT)の後の最終段階として用いられます。しかし、Karpathy氏はRLHFを「ボトルネック」や「暫定的な解決策」と表現し、AI進化の究極の解決策とは程遠いものだと考えています。
Karpathy氏は巧みにRLHFとDeepMind社のAlphaGoを比較しました。AlphaGoは、氏が「真のRL」(強化学習)と呼ぶ技術を採用し、自己対戦を繰り返し、勝率を最大化することで、人間の介入なしにトップ棋士を凌駕しました。この手法は、ニューラルネットワークを最適化することで、ゲームの結果から直接学習し、人間を超えるパフォーマンスを実現しました。
これに対し、Karpathy氏はRLHFは問題を真に解決するのではなく、人間の好みを模倣することに過ぎないと考えています。氏は、AlphaGoがRLHF手法を採用した場合、人間の評価者は膨大な数の棋譜の状態を比較し、好みを選択する必要があり、人間の「雰囲気チェック」を模倣する「報酬モデル」を訓練するには、最大10万回もの比較が必要になる可能性があると推測しています。しかし、囲碁のような厳密なゲームでは、このような「雰囲気」に基づく判断は誤った結果を生む可能性があります。
同様に、現在のLLMの報酬モデルの動作原理も同様です。統計的に人間の評価者が好みそうな回答を上位にランク付けする傾向があります。これは、真の問題解決能力ではなく、人間の表面的な好みに迎合する代理的なものに過ぎません。さらに懸念されるのは、モデルが自身の能力を向上させるのではなく、この報酬関数を巧みに利用する方法をすぐに学習してしまう可能性があることです。
Karpathy氏は、強化学習は囲碁のような閉じた環境では優れたパフォーマンスを発揮するものの、オープンな言語タスクでは真の強化学習の実現が依然として困難であると指摘しています。これは、オープンなタスクでは、明確な目標と報酬メカニズムを定義することが難しいことが主な理由です。「記事を要約する、pipのインストールに関する曖昧な質問に答える、冗談を言う、またはJavaコードをPythonに書き換えるといったタスクに、客観的な報酬を与えるにはどうすれば良いのでしょうか?」とKarpathy氏は洞察に富んだ質問を投げかけ、「この方向への発展は原理的に不可能ではないものの、決して容易ではなく、創造的な思考が必要です」と述べています。
それにもかかわらず、Karpathy氏は、この難問を解決できれば、言語モデルは人間の能力に匹敵し、あるいは凌駕する問題解決能力を持つ可能性があると信じています。この見解は、Google DeepMindが最近発表した論文と一致しており、同論文では、開放性が汎用人工知能(AGI)の基礎であると述べられています。
今年OpenAIを退社した数人の上級AI専門家の1人であるKarpathy氏は、最近、自身の教育AIスタートアップ企業のために奔走しています。彼のこの発言は、AI研究分野に新たな思考の次元をもたらし、将来のAI開発の方向性に対する貴重な洞察を提供しました。
Karpathy氏の見解は、業界で幅広い議論を引き起こしています。支持者は、彼が現在のAI研究における重要な問題、つまりAIに人間の行動を模倣するだけでなく、複雑な問題を真に解決する能力を持たせる方法を明らかにしたと考えています。反対者は、RLHFを早々に放棄すると、AI開発の方向性が逸れる可能性があると懸念しています。
論文アドレス:https://arxiv.org/pdf/1706.03741