Recientemente, un equipo de investigación del Instituto Ellis de Tübingen, la Universidad de Maryland y el Laboratorio Nacional Lawrence Livermore ha desarrollado un nuevo modelo de lenguaje llamado Huginn. Este modelo, con una arquitectura recursiva, muestra una capacidad de razonamiento significativamente mejorada. A diferencia de los modelos tradicionales, Huginn no requiere un entrenamiento específico de "cadenas de razonamiento", sino que puede razonar de forma autónoma dentro del "espacio latente" de la red neuronal y luego generar la salida.
El equipo de investigación desarrolló un nuevo modelo de lenguaje llamado Huginn, que utiliza una arquitectura recursiva y mejora significativamente la capacidad de razonamiento. A diferencia de los modelos tradicionales, Huginn no necesita un entrenamiento específico de "cadenas de razonamiento", sino que puede razonar de forma autónoma dentro del "espacio latente" de la red neuronal y luego producir el resultado.
El modelo Huginn se entrenó a gran escala en la supercomputadora Frontier utilizando 4096 GPU AMD. Su método de entrenamiento es único, empleando un número variable de iteraciones de cálculo. El sistema decide aleatoriamente cuántas veces repetir los módulos de cálculo, lo que permite que el modelo se adapte mejor a la complejidad de diferentes tareas.
Nota de la fuente de la imagen: La imagen fue generada por IA, Midjourney.
Las pruebas muestran que Huginn destaca en tareas matemáticas y de programación, superando en las pruebas de referencia GSM8k y MATH a modelos de código abierto con un tamaño de parámetros y una cantidad de datos de entrenamiento varias veces mayor. Los investigadores observaron que Huginn puede ajustar la profundidad del cálculo según la complejidad de la tarea y desarrollar cadenas de razonamiento dentro del "espacio latente". El análisis muestra que el modelo forma patrones de cálculo complejos en el "espacio latente", como trayectorias circulares al resolver problemas matemáticos. Esto demuestra que Huginn puede aprender de forma autónoma y razonar de maneras novedosas.
Los investigadores creen que, aunque el rendimiento absoluto de Huginn aún necesita mejoras, como modelo de prueba de concepto, ya ha demostrado un potencial asombroso. Con el aumento del tiempo de razonamiento y la mejora de la capacidad, los modelos grandes que utilizan la arquitectura Huginn podrían convertirse en una alternativa a los modelos de razonamiento tradicionales. El equipo destaca que el método de Huginn podría capturar tipos de razonamiento difíciles de expresar y planea continuar la investigación en el futuro, explorando métodos de extensión como el aprendizaje por refuerzo para mejorar aún más el rendimiento del modelo.