Uma nova estrutura de código aberto inovadora chamada OpenR foi recentemente lançada para abordar as deficiências dos grandes modelos de linguagem (LLMs) em tarefas de raciocínio complexas. Desenvolvida em conjunto por pesquisadores da University College London, Universidade de Liverpool, Universidade Jiao Tong de Xangai, Universidade de Ciência e Tecnologia de Hong Kong (Guangzhou) e Universidade de Westlake, a estrutura utiliza computação em tempo de teste, aprendizado por reforço e supervisão de processo para abrir novas vias para melhorar a capacidade de raciocínio dos LLMs.

Embora os LLMs tenham feito progressos significativos na geração de linguagem, eles ainda enfrentam desafios ao lidar com tarefas complexas como matemática, programação e problemas científicos. O OpenR foi criado para preencher essa lacuna, expandindo as capacidades dos LLMs da simples geração de texto para o domínio mais avançado do raciocínio.

O design do OpenR foi parcialmente inspirado no modelo o1 da OpenAI, mas seu objetivo é mais amplo: não apenas replicar a capacidade de raciocínio de modelos de linguagem avançados, mas também superá-los. Como a primeira solução de código aberto a fornecer suporte de raciocínio tão complexo, o OpenR concentra-se na aquisição de dados, modelos de recompensa de processo e métodos de raciocínio eficientes, com o objetivo de acelerar o desenvolvimento de grandes modelos de linguagem focados em raciocínio.

Metaverso, Ficção Científica, Cyberpunk, Grandes Modelos (2) Pintura

Observação da fonte: A imagem foi gerada por IA, fornecida pela Midjourney.

A estrutura central do framework gira em torno do aumento de dados, aprendizado de políticas e orientação de raciocínio combinada com exploração de múltiplos caminhos. O OpenR usa o processo de decisão de Markov (MDP) para modelar tarefas de raciocínio, decompondo o processo de raciocínio complexo em uma série de etapas que podem ser avaliadas e otimizadas. Este método não apenas cultiva diretamente as habilidades de raciocínio, mas também explora múltiplos caminhos de raciocínio em cada etapa, aumentando significativamente a robustez do processo de raciocínio.

Outro recurso chave do framework é o modelo de recompensa de processo (PRM), que fornece feedback detalhado para etapas intermediárias de raciocínio, permitindo que o modelo ajuste suas decisões com mais precisão, em vez de depender apenas da avaliação do resultado final. Essa orientação granular melhora significativamente a eficiência de aprendizado do modelo.

Em testes práticos, o OpenR demonstrou desempenho notável. Usando o conjunto de dados MATH como referência, a precisão do raciocínio do OpenR foi aproximadamente 10% maior do que os métodos tradicionais. O estudo também descobriu que métodos de exploração de múltiplos caminhos, como "Best-of-N" e "Beam Search", são significativamente superiores às técnicas simples de votação majoritária, especialmente quando os recursos computacionais são limitados.

As técnicas de aprendizado por reforço do OpenR, especialmente aquelas que utilizam PRM, mostraram excelente desempenho em cenários de aprendizado de políticas online, promovendo a melhoria contínua da capacidade de raciocínio dos LLMs. Este resultado indica que, por meio de estratégias de aprendizado cuidadosamente projetadas, os LLMs têm o potencial de alcançar avanços significativos em tarefas de raciocínio complexas.

Como uma plataforma de código aberto, o OpenR fornece um recurso valioso para pesquisadores e desenvolvedores para impulsionarem juntos a capacidade de raciocínio dos modelos de linguagem. Ele não apenas fornece um caminho de atualização para os LLMs atuais, mas também prepara o caminho para sistemas de IA mais inteligentes e com maior capacidade de raciocínio no futuro.

Olhando para o futuro, a equipe do OpenR planeja expandir ainda mais os recursos do framework, abrangendo uma gama mais ampla de tipos de tarefas de raciocínio e otimizando continuamente seu processo de raciocínio. Esse esforço deve contribuir significativamente para a meta de longo prazo de atingir agentes de IA de raciocínio auto-aperfeiçoadores.

Endereço do projeto: https://github.com/facebook/openr