Uma pesquisa recente da Google DeepMind indica que modelos de linguagem grandes têm dificuldades em corrigir seus próprios erros de raciocínio sem orientação externa. Os pesquisadores descobriram que, quando os modelos dependem apenas de seus próprios pensamentos para corrigir suas respostas iniciais, eles frequentemente cometem erros.
O estudo também revelou que, embora a concordância entre múltiplos modelos por meio de votação possa levar a uma autoconsistência, isso ainda está longe de uma verdadeira autocorreção.
Os pesquisadores afirmam que esses resultados são importantes para o desenvolvimento de aplicações que exigem maior segurança. Eles pedem que se continue a trabalhar na melhoria dos modelos de linguagem existentes, reconhecendo tanto o potencial quanto as limitações da autocorreção.