Los modelos lingüísticos de gran tamaño (LLM) destacan en numerosas tareas, pero su capacidad de razonamiento ha sido objeto de debate. Investigadores de Meta han publicado recientemente un artículo que muestra cómo utilizan un modelo Transformer para resolver un problema de larga data en el campo de las matemáticas: el descubrimiento de funciones de Lyapunov globales para sistemas dinámicos.
Las funciones de Lyapunov permiten determinar la estabilidad de un sistema dinámico. Por ejemplo, se pueden utilizar para predecir la estabilidad a largo plazo del problema de los tres cuerpos, es decir, la trayectoria de movimiento a largo plazo de tres cuerpos celestes bajo la influencia gravitatoria. Sin embargo, actualmente no existe un método universal para derivar funciones de Lyapunov, y solo se conocen las funciones correspondientes para unos pocos sistemas.
Para abordar este problema, los investigadores de Meta entrenaron un modelo Transformer de secuencia a secuencia para predecir la función de Lyapunov de un sistema dado. De forma innovadora, utilizaron un método de "generación inversa" para crear un gran conjunto de datos de entrenamiento que contiene sistemas dinámicos estables y sus correspondientes funciones de Lyapunov.
El método tradicional de "generación directa" parte de sistemas generados aleatoriamente e intenta calcular su función de Lyapunov. Este método es ineficiente y solo puede manejar sistemas simples de tipos específicos. El método de "generación inversa", por otro lado, genera primero una función de Lyapunov aleatoria y luego construye el sistema estable correspondiente, lo que evita la dificultad de calcular la función de Lyapunov y permite generar datos de entrenamiento más diversos.
Los investigadores descubrieron que el modelo Transformer entrenado en el conjunto de datos de "generación inversa" alcanzó una precisión casi perfecta (99%) en el conjunto de prueba, y también mostró un buen rendimiento en el conjunto de prueba fuera de la distribución (73%). Sorprendentemente, al agregar una pequeña cantidad (300) de ejemplos simples de "generación directa" al conjunto de entrenamiento, la precisión del modelo se incrementó aún más al 84%, lo que demuestra que incluso un número reducido de soluciones conocidas puede mejorar significativamente la capacidad de generalización del modelo.
Para probar la capacidad del modelo para descubrir nuevas funciones de Lyapunov, los investigadores generaron decenas de miles de sistemas aleatorios y utilizaron el modelo para realizar predicciones. Los resultados mostraron que el modelo tiene una tasa de éxito diez veces mayor que los métodos más avanzados existentes para encontrar funciones de Lyapunov en sistemas polinomiales, y también puede encontrar funciones de Lyapunov para sistemas no polinomiales, algo que ningún algoritmo actual puede hacer.
Los investigadores también compararon el modelo con matemáticos humanos. Se invitó a 25 estudiantes de maestría en matemáticas a realizar una prueba, y los resultados mostraron que la precisión del modelo fue significativamente superior a la de los humanos.
Este estudio demuestra que los modelos Transformer pueden entrenarse para resolver problemas complejos de razonamiento matemático, y que el método de "generación inversa" puede crear eficazmente conjuntos de datos de entrenamiento, superando las limitaciones de los métodos tradicionales. En el futuro, los investigadores planean aplicar este método a otros problemas matemáticos y explorar más posibilidades de la IA en el descubrimiento científico.
Enlace del artículo: https://arxiv.org/pdf/2410.08304