A equipe de pesquisa do Google DeepMind alcançou um avanço significativo recentemente, desenvolvendo uma tecnologia inovadora chamada SCoRe (Self-Correction through Reinforcement Learning, ou Autocorreção por meio de Aprendizado por Reforço). Essa tecnologia visa resolver o desafio de longa data dos grandes modelos de linguagem (LLMs) de se autocorrigirem, identificando e corrigindo erros sem depender de vários modelos ou verificações externas.

O cerne da tecnologia SCoRe reside em sua abordagem de duas etapas. Na primeira etapa, a inicialização do modelo é otimizada para que ele possa gerar uma correção na segunda tentativa, mantendo a semelhança da resposta inicial com o modelo base. A segunda etapa emprega aprendizado por reforço multiestágio para ensinar o modelo a melhorar as respostas primeira e segunda. O que torna esse método único é que ele usa apenas dados de treinamento autogerados; o modelo cria seus próprios exemplos ao resolver problemas e tentar melhorar as soluções.

QQ20240926-150104.png

Em testes práticos, o SCoRe demonstrou uma melhoria de desempenho notável. Testes usando os modelos Google Gemini 1.0 Pro e 1.5 Flash mostraram uma melhoria de 15,6 pontos percentuais na capacidade de autocorreção em tarefas de raciocínio matemático no benchmark MATH. Em tarefas de geração de código no HumanEval, o desempenho melhorou em 9,1 pontos percentuais. Esses resultados indicam que o SCoRe fez progressos substanciais na melhoria da capacidade de autocorreção dos modelos de IA.

Os pesquisadores enfatizam que o SCoRe é o primeiro método a alcançar uma autocorreção interna positiva significativa, permitindo que o modelo melhore as respostas sem feedback externo. No entanto, a versão atual do SCoRe realiza apenas uma rodada de treinamento de autocorreção, e pesquisas futuras podem explorar a possibilidade de múltiplas etapas de correção.

Esta pesquisa da equipe DeepMind revela uma percepção importante: ensinar metaestratégias como autocorreção requer ir além dos métodos de treinamento de modelos de linguagem padrão. O aprendizado por reforço multiestágio abre novas possibilidades para o campo da IA, com a promessa de impulsionar o desenvolvimento de sistemas de IA mais inteligentes e confiáveis.

Essa tecnologia inovadora não apenas demonstra o potencial de autoaperfeiçoamento da IA, mas também oferece novas perspectivas para resolver problemas de confiabilidade e precisão dos grandes modelos de linguagem, podendo ter um impacto profundo no desenvolvimento de aplicações de IA futuras.