Uma pesquisa recente da equipe do Google propôs que o uso de modelos de linguagem grandes para substituir humanos na anotação de preferências pode alcançar resultados semelhantes aos do RLHF (Reinforcement Learning from Human Feedback). Comparando as taxas de vitória do RLAIF (Reinforcement Learning from AI Feedback) e do RLHF, os pesquisadores descobriram que sua popularidade é equivalente, ambas com 50%. Este estudo demonstra que o RLAIF pode produzir melhorias comparáveis ​​ao RLHF sem depender de anotadores humanos.