ペンシルバニア大学の数学教授、ロバート・グリスト氏は、GPT-o1-miniというAIモデルと興味深い「知力勝負」を繰り広げています。教授はより複雑なボトルネック双対定理の一般化を導き出す努力の中で、数えきれないほどの楽観と失望を繰り返しました。

グリスト氏は、GPT-4、Claude-3.5、Gemini-1.5-Proなど、複数の有名なAIモデルを試しました。これらのモデルは仮説を立てたり証拠を示したりすることはできますが、微妙な間違いで「失敗」することが多く、グリスト氏をかなり落胆させました。最終的に、彼はOpenAIのGPT-o1-miniモデルと協力して、突破口を開きました。このモデルは、欠陥のある証明を分析し、間違いを見つけ出し、わずか43秒で「新しく巧妙な正しい証明」を生成しました。その優雅さは人間のバージョンを凌駕するものでした。

LLM アルパカ 数学大規模モデル

画像出典:画像はAIによって生成され、画像ライセンス提供元はMidjourneyです。

GPT-o1-miniは論理タスクで優れた性能を発揮し、連鎖思考技術を採用しています。論理と計画のベンチマークテストでは従来の言語モデルを上回っていますが、依然として間違いの可能性があります。グリスト氏は今回の経験を「大型言語モデル(LLM)が証明できるかどうかの境界線上にちょうどあった結果だ」とまとめています。彼は、モデルの失敗パターンを特定することが今回の実験の鍵だったと説明しています。

成功を収めたものの、グリスト氏はAIを使うプロセスが必ずしも自分だけでやるよりも速いとは限らないことを認めています。彼は、これらのモデルの助けを借りた方が、最終的な論文の質が向上したとさえ述べています。彼の論文には、AIモデルが成果にどのように貢献したかを詳細に記した付録も含まれています。

しかし、物事が常に順風満帆だったわけではありません。論文発表直後、別の数学者であるスリダー・ラメッシュ氏がソーシャルメディアで、この証明は実はバーコフの定理で簡単に証明できることを指摘し、グリスト氏を驚かせました。彼はユーモラスに「人間が勝った…」と認めています。今回のAIとの協力は成果をもたらしましたが、彼に人間の知恵が最も効果的な解決策である場合もあることを認識させました。