Große Sprachmodelle zeigen in vielen Aufgaben hervorragende Leistungen, doch ihre Inferenzfähigkeit ist umstritten. Forscher von Meta haben kürzlich eine Arbeit veröffentlicht, in der sie zeigen, wie sie ein Transformer-Modell verwenden, um ein seit langem bestehendes Problem im Bereich der Mathematik zu lösen: die Entdeckung globaler Lyapunov-Funktionen dynamischer Systeme.
Lyapunov-Funktionen können bestimmen, ob ein dynamisches System stabil ist. Sie können beispielsweise verwendet werden, um die Langzeitstabilität des Dreikörperproblems vorherzusagen, also die langfristige Bewegungstrajektorie von drei Himmelskörpern unter gravitativer Einwirkung. Es gibt jedoch keine allgemeine Methode, um Lyapunov-Funktionen abzuleiten, und nur für wenige Systeme sind die entsprechenden Funktionen bekannt.
Um dieses Problem zu lösen, trainierten die Meta-Forscher ein Sequenz-zu-Sequenz-Transformer-Modell zur Vorhersage der Lyapunov-Funktion eines gegebenen Systems. Sie verwendeten innovativ eine „inverse Generierungs“-Methode, um einen umfangreichen Trainingsdatensatz zu erstellen, der stabile dynamische Systeme und ihre entsprechenden Lyapunov-Funktionen enthält.
Die traditionelle „vorwärts gerichtete Generierungs“-Methode beginnt mit zufällig generierten Systemen und versucht, deren Lyapunov-Funktion zu berechnen. Diese Methode ist ineffizient und kann nur einfache Systeme bestimmter Typen verarbeiten. Die „inverse Generierungs“-Methode hingegen generiert zunächst zufällig eine Lyapunov-Funktion und konstruiert dann das entsprechende stabile System. Dadurch wird die Schwierigkeit der Berechnung der Lyapunov-Funktion umgangen und es können vielfältigere Trainingsdaten generiert werden.
Die Forscher stellten fest, dass das auf dem „invers generierten“ Datensatz trainierte Transformer-Modell eine nahezu perfekte Genauigkeit (99 %) im Testsatz erreichte und auch im Out-of-Distribution-Testsatz eine gute Leistung zeigte (73 %). Noch überraschender ist, dass durch Hinzufügen einer kleinen Anzahl (300) „vorwärts generierter“ einfacher Beispiele zum Trainingssatz die Genauigkeit des Modells auf 84 % gesteigert werden konnte. Dies zeigt, dass selbst wenige bekannte Lösungen die Generalisierungsfähigkeit des Modells deutlich verbessern können.
Um die Fähigkeit des Modells zu testen, neue Lyapunov-Funktionen zu entdecken, generierten die Forscher zehntausende zufälliger Systeme und verwendeten das Modell zur Vorhersage. Die Ergebnisse zeigten, dass das Modell bei Polynomsystemen die Lyapunov-Funktion zehnmal häufiger findet als die bisher besten Methoden und auch Lyapunov-Funktionen nicht-polynomieller Systeme finden kann, was bisher kein Algorithmus leisten konnte.
Die Forscher verglichen das Modell auch mit menschlichen Mathematikern. Sie ließen 25 Mathematik-Masterstudenten einen Test durchführen, der zeigte, dass die Genauigkeit des Modells deutlich höher war als die der Menschen.
Diese Studie zeigt, dass Transformer-Modelle trainiert werden können, um komplexe mathematische Inferenzprobleme zu lösen, und dass die „inverse Generierungs“-Methode effektiv Trainingsdatensätze erstellen kann, um die Grenzen traditioneller Methoden zu überwinden. Zukünftig planen die Forscher, diese Methode auf andere mathematische Probleme anzuwenden und die Möglichkeiten von KI in der wissenschaftlichen Entdeckung weiter zu erforschen.
论文地址:https://arxiv.org/pdf/2410.08304