El equipo FAIR de Meta ha presentado recientemente Dualformer, un nuevo modelo Transformer que imita el sistema cognitivo dual humano, integrando a la perfección la inferencia rápida y lenta. Esto ha resultado en un avance significativo en la capacidad de razonamiento y la eficiencia computacional.

El proceso de pensamiento humano suele considerarse controlado por dos sistemas: el sistema 1, rápido e intuitivo, y el sistema 2, más lento pero más lógico.

Los modelos Transformer tradicionales suelen simular solo uno de estos sistemas, lo que resulta en modelos que son rápidos pero con poca capacidad de razonamiento, o modelos con una gran capacidad de razonamiento pero lentos y con un alto coste computacional.

image.png

La innovación de Dualformer reside en su método de entrenamiento. Los investigadores entrenaron el modelo utilizando trayectorias de razonamiento aleatorias, descartando aleatoriamente diferentes partes de las trayectorias durante el entrenamiento. Esto es similar a analizar el proceso de pensamiento humano y crear atajos. Esta estrategia de entrenamiento permite a Dualformer cambiar flexiblemente entre diferentes modos durante la inferencia:

Modo rápido: Dualformer solo proporciona la solución final, con una velocidad extremadamente rápida.

Modo lento: Dualformer proporciona la cadena de razonamiento completa y la solución final, con una mayor capacidad de razonamiento.

Modo automático: Dualformer selecciona automáticamente el modo adecuado según la complejidad de la tarea.

image.png

Los resultados experimentales muestran que Dualformer destaca en tareas como la navegación de laberintos y la resolución de problemas matemáticos. En el modo lento, Dualformer puede resolver tareas de navegación de laberintos de 30x30 con una tasa de éxito del 97,6%, superando al modelo Searchformer entrenado solo con trayectorias de razonamiento completas, mientras que reduce los pasos de razonamiento en un 45,5%.

image.png

image.png

En el modo rápido, la tasa de éxito de Dualformer también alcanza el 80%, muy superior al modelo Solution-Only entrenado solo con soluciones finales. En el modo automático, Dualformer puede mantener una alta tasa de éxito mientras reduce significativamente los pasos de razonamiento.

image.png

image.png

El éxito de Dualformer demuestra que la aplicación de la teoría de la cognición humana al diseño de modelos de inteligencia artificial puede mejorar eficazmente el rendimiento del modelo. Esta fusión de pensamiento rápido y lento ofrece nuevas ideas para construir sistemas de IA más potentes y eficientes.

Enlace del artículo: https://arxiv.org/pdf/2410.09918