Eine aktuelle Studie des Google-Teams legt nahe, dass der Einsatz von großen Sprachmodellen zur Präferenzmarkierung anstelle von menschlichen Bewertern zu vergleichbaren Ergebnissen wie bei RLHF (Reinforcement Learning from Human Feedback) führt. Durch den Vergleich der Erfolgsquoten von RLAIF (Reinforcement Learning from AI Feedback) und RLHF stellten die Forscher fest, dass beide Methoden eine gleich hohe Akzeptanzrate von 50 % erzielten. Diese Studie belegt, dass RLAIF vergleichbare Verbesserungen erzielen kann, ohne auf menschliche Bewerter angewiesen zu sein.