大規模言語モデルは多くのタスクで優れた性能を示していますが、その推論能力は常に議論の的となっています。Metaの研究者らは最近、論文を発表し、Transformerモデルを用いて数学分野における長年の難問、すなわち力学系のグローバルリアプノフ関数の発見にどのように取り組んだかを示しました。
リアプノフ関数は、力学系の安定性を判断するために使用できます。例えば、三体問題(3つの天体が重力相互作用の下で長期的にどのように運動するか)の長期的な安定性を予測するために使用できます。しかし、リアプノフ関数を導き出す普遍的な方法はまだ見つかっておらず、対応する関数が知られているのはごく少数の系に限られています。
この問題を解決するために、Metaの研究者らは、与えられた系のリアプノフ関数を予測するシーケンスツーシーケンスのTransformerモデルを訓練しました。彼らは革新的に「逆方向生成」手法を用いて、安定した力学系とその対応するリアプノフ関数を含む大量の訓練データセットを作成しました。
従来の「順方向生成」手法は、ランダムに生成された系から出発し、そのリアプノフ関数を計算しようとしますが、この手法は効率が悪く、特定の種類の単純な系しか処理できません。「逆方向生成」手法は、まずランダムにリアプノフ関数を生成し、それに対応する安定した系を構築することで、リアプノフ関数の計算という困難を回避し、より多様な訓練データを作成できます。
研究者らは、「逆方向生成」データセットで訓練されたTransformerモデルが、テストセットでほぼ完璧な精度(99%)を達成し、分布外テストセットでも優れた性能(73%)を示すことを発見しました。さらに驚くべきことに、訓練セットに少量(300個)の「順方向生成」による単純な例を追加することで、モデルの精度は84%にまで向上しました。これは、既知の解が少量であっても、モデルの汎化能力を大幅に向上させることを示しています。
モデルが新しいリアプノフ関数を見つける能力をテストするために、研究者らは数万個のランダムな系を生成し、モデルを用いて予測を行いました。その結果、このモデルは多項式系において、リアプノフ関数を見つける成功率が既存の最先端手法の10倍であり、非多項式系のリアプノフ関数も発見できることがわかりました。これは、現在のところ、どのアルゴリズムも達成できていません。
研究者らは、モデルと人間の数学者を比較するため、25人の数学修士課程の大学院生にテストを実施しました。その結果、モデルの精度は人間をはるかに上回ることが示されました。
この研究は、Transformerモデルが複雑な数学的推論問題を解決するために訓練できること、そして「逆方向生成」手法が効果的に訓練データセットを作成し、従来の手法の限界を突破できることを示しています。今後、研究者らは、この手法を他の数学的難問に応用し、科学におけるAIの可能性を探求していく予定です。