Investigadores de Google han presentado recientemente un nuevo modelo, llamado TransNAR, que combina Transformer y razonamiento algorítmico neuronal (NAR), logrando un rendimiento excepcional en tareas algorítmicas.

image.png

Los modelos Transformer tradicionales presentan deficiencias en el razonamiento algorítmico, mientras que NAR destaca en el procesamiento de datos estructurados y posee una potente capacidad de generalización. A través de un mecanismo de atención cruzada, TransNAR fusiona profundamente Transformer y NAR, permitiendo que el modelo procese simultáneamente descripciones de problemas algorítmicos en formato de texto y representaciones gráficas, lo que resulta en una capacidad de razonamiento algorítmico superior.

La estrategia de entrenamiento de TransNAR también es única, empleando un método de entrenamiento multinivel. En la fase de preentrenamiento, NAR se entrena de forma independiente, aprendiendo la lógica intrínseca y los pasos de cálculo mediante la ejecución de diversas tareas algorítmicas. En la fase de ajuste fino, TransNAR recibe entradas duales de descripciones de texto y representaciones gráficas, utilizando la información de incrustación de nodos proporcionada por el NAR preentrenado, y ajustando sus propias incrustaciones de tokens a través del mecanismo de atención cruzada.

Este proceso permite que TransNAR supere con creces a los modelos Transformer de referencia en tareas algorítmicas, mostrando una ventaja significativa, especialmente en la capacidad de generalización fuera de la distribución. TransNAR muestra una mejora de más del 20%.

Puntos clave:

⭐ Google presenta el modelo TransNAR, combinando Transformer y NAR para mejorar la capacidad de razonamiento algorítmico.

⭐ TransNAR utiliza un mecanismo de atención cruzada, fusionando profundamente Transformer y NAR, mostrando un rendimiento excelente en texto y representaciones gráficas.

⭐ La estrategia de entrenamiento multinivel hace que TransNAR sea significativamente superior a los modelos Transformer de referencia en tareas algorítmicas, especialmente en términos de capacidad de generalización.