最近、テュービンゲン・エリス研究所、メリーランド大学、ローレンス・リバモア国立研究所の研究チームが、Huginnという新しい言語モデルを開発しました。このモデルは再帰的アーキテクチャを採用しており、推論能力が大幅に向上しています。

従来のモデルとは異なり、Huginnは特別な「推論チェーン」の訓練を必要とせず、ニューラルネットワークの「潜在空間」内で自律的に推論を行い、結果を出力します。

Huginnモデルは、Frontierスーパーコンピューター上で、4096個のAMD GPUを使用して大規模に訓練されました。その訓練方法は独特で、可変計算反復回数を使用し、システムがランダムに計算モジュールの繰り返し回数を決定することで、モデルが異なるタスクの複雑さにうまく適応できるようにしています。

ロボットの思考

画像出典:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyから提供されています。

テストの結果、Huginnは数学とプログラミングのタスクで優れた性能を示し、GSM8kとMATHのベンチマークテストでは、パラメーター規模とトレーニングデータ量が数倍も多いオープンソースモデルを上回りました。研究者たちは、Huginnがタスクの複雑さに合わせて計算深度を調整し、「潜在空間」内で推論チェーンを展開できることに気づきました。分析によると、モデルは「潜在空間」内で複雑な計算パターンを形成し、例えば数学の問題を解く際には円形の軌跡を示します。これは、Huginnが自律的に学習し、斬新な方法で推論できることを示しています。

研究者たちは、Huginnの絶対的な性能はまだ向上させる必要があるものの、概念実証モデルとしては驚異的な可能性を示していると述べています。推論時間が長くなり、能力が向上するにつれて、Huginnアーキテクチャを採用した大規模モデルは、従来の推論モデルにとって代わる可能性があります。研究チームは、Huginnの手法は表現しにくい推論の種類を捉えることができる可能性があり、今後、強化学習などの拡張手法を探索してモデル性能をさらに向上させる研究を続けることを強調しています。