A equipe FAIR do Meta lançou recentemente um novo modelo Transformer chamado Dualformer, que imita o sistema cognitivo duplo humano, integrando perfeitamente modos de raciocínio rápido e lento, alcançando avanços significativos na capacidade de raciocínio e eficiência computacional.

O processo de pensamento humano geralmente é considerado controlado por dois sistemas: o sistema 1 é rápido e intuitivo, enquanto o sistema 2 é mais lento, mas mais lógico.

Os modelos Transformer tradicionais geralmente simulam apenas um dos sistemas 1 ou 2, resultando em modelos que são rápidos, mas com pouca capacidade de raciocínio, ou com forte capacidade de raciocínio, mas lentos e com alto custo computacional.

image.png

A inovação do Dualformer reside em seu método de treinamento. Os pesquisadores usaram trajetórias de raciocínio aleatórias para treinar o modelo, descartando aleatoriamente diferentes partes das trajetórias durante o treinamento, semelhante à análise do processo de pensamento humano e à criação de atalhos. Esta estratégia de treinamento permite que o Dualformer alterne flexiblmente entre diferentes modos durante o raciocínio:

Modo rápido: O Dualformer apenas fornece a solução final, com velocidade extremamente alta.

Modo lento: O Dualformer fornece a cadeia de raciocínio completa e a solução final, com maior capacidade de raciocínio.

Modo automático: O Dualformer pode selecionar automaticamente o modo apropriado com base na complexidade da tarefa.

image.png

Os resultados experimentais mostram que o Dualformer apresenta excelente desempenho em tarefas como navegação em labirintos e resolução de problemas matemáticos. No modo lento, o Dualformer consegue resolver tarefas de navegação em labirintos 30x30 com uma taxa de sucesso de 97,6%, superando o modelo Searchformer treinado apenas com trajetórias de raciocínio completas, enquanto reduz o número de etapas de raciocínio em 45,5%.

image.png

image.png

No modo rápido, a taxa de sucesso do Dualformer também é alta, atingindo 80%, muito superior ao modelo Solution-Only treinado apenas com soluções finais. No modo automático, o Dualformer consegue manter uma alta taxa de sucesso, reduzindo significativamente o número de etapas de raciocínio.

image.png

image.png

O sucesso do Dualformer demonstra que a aplicação de teorias da cognição humana ao design de modelos de inteligência artificial pode melhorar eficazmente o desempenho do modelo. Essa fusão de pensamento rápido e lento oferece novas perspectivas para a construção de sistemas de IA mais poderosos e eficientes.

Endereço do artigo: https://arxiv.org/pdf/2410.09918