Uma pesquisa recente da equipe do Google propôs que o uso de modelos de linguagem grandes para substituir humanos na anotação de preferências pode alcançar resultados semelhantes aos do RLHF (Reinforcement Learning from Human Feedback). Comparando as taxas de vitória do RLAIF (Reinforcement Learning from AI Feedback) e do RLHF, os pesquisadores descobriram que sua popularidade é equivalente, ambas com 50%. Este estudo demonstra que o RLAIF pode produzir melhorias comparáveis ao RLHF sem depender de anotadores humanos.
RLHF não precisa mais de humanos! Estudo da equipe do Google prova que a anotação de IA atingiu o nível humano

新智元
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.