Les grands modèles de langage excellent dans de nombreuses tâches, mais leurs capacités de raisonnement restent controversées. Des chercheurs de Meta ont récemment publié un article démontrant comment ils utilisent un modèle Transformer pour résoudre un problème de longue date en mathématiques : la découverte de fonctions de Lyapunov globales pour les systèmes dynamiques.

Une fonction de Lyapunov permet de déterminer la stabilité d'un système dynamique. Par exemple, elle peut être utilisée pour prédire la stabilité à long terme du problème à trois corps, c'est-à-dire la trajectoire de mouvement à long terme de trois corps célestes sous l'effet de la gravité. Cependant, il n'existe pas encore de méthode universelle pour dériver une fonction de Lyapunov, et seules quelques fonctions correspondantes sont connues pour un petit nombre de systèmes.

Pour résoudre ce problème, les chercheurs de Meta ont entraîné un modèle Transformer séquence-à-séquence pour prédire la fonction de Lyapunov d'un système donné. Ils ont innové en utilisant une méthode de « génération inverse » pour créer un vaste ensemble de données d'entraînement contenant des systèmes dynamiques stables et leurs fonctions de Lyapunov correspondantes.

image.png

La méthode traditionnelle de « génération directe » consiste à partir de systèmes générés aléatoirement et à tenter de calculer leur fonction de Lyapunov. Cette méthode est inefficace et ne peut traiter que des systèmes simples de types spécifiques. La méthode de « génération inverse » consiste quant à elle à générer aléatoirement une fonction de Lyapunov, puis à construire le système stable correspondant, contournant ainsi la difficulté de calcul de la fonction de Lyapunov et permettant de générer des données d'entraînement plus diversifiées.

Les chercheurs ont constaté que le modèle Transformer entraîné sur l'ensemble de données de « génération inverse » atteignait une précision quasi parfaite (99 %) sur l'ensemble de test, et présentait également de bonnes performances sur l'ensemble de test hors distribution (73 %). Plus surprenant encore, l'ajout d'un petit nombre (300) d'exemples simples de « génération directe » à l'ensemble d'entraînement a permis d'améliorer encore la précision du modèle à 84 %, ce qui montre que même un petit nombre de solutions connues peut améliorer considérablement la capacité de généralisation du modèle.

image.png

Pour tester la capacité du modèle à découvrir de nouvelles fonctions de Lyapunov, les chercheurs ont généré des dizaines de milliers de systèmes aléatoires et utilisé le modèle pour effectuer des prédictions. Les résultats montrent que le modèle réussit à trouver des fonctions de Lyapunov pour les systèmes polynomiaux dix fois plus souvent que les méthodes de pointe existantes, et peut également trouver des fonctions de Lyapunov pour des systèmes non polynomiaux, ce qu'aucun algorithme ne pouvait faire jusqu'à présent.

Les chercheurs ont également comparé le modèle à des mathématiciens humains. Ils ont fait passer un test à 25 étudiants en master de mathématiques, et les résultats montrent que la précision du modèle est bien supérieure à celle des humains.

Cette étude montre que les modèles Transformer peuvent être entraînés pour résoudre des problèmes complexes de raisonnement mathématique, et que la méthode de « génération inverse » permet de créer efficacement des ensembles de données d'entraînement, dépassant ainsi les limites des méthodes traditionnelles. À l'avenir, les chercheurs envisagent d'appliquer cette méthode à d'autres problèmes mathématiques et d'explorer les possibilités offertes par l'IA dans la découverte scientifique.

Adresse de l'article : https://arxiv.org/pdf/2410.08304