グーグルの研究チームによる最新の研究で、大規模言語モデルを用いて人間に代わって好みに基づくデータのラベリングを行うことで、RLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)と同等の効果が得られることが示されました。
研究者らは、RLAIF(Reinforcement Learning from AI Feedback:AIからのフィードバックによる強化学習)とRLHFの勝率を比較した結果、両者の支持率は同等で、いずれも50%であることを発見しました。
この研究は、RLAIFが人間のラベラーに依存することなく、RLHFと同等の改善効果を生み出せることを実証しています。