Sakana AIは、自然に触発されたアルゴリズムを専門とする人工知能研究ラボであり、最近、Transformer²(Transformer-squared)と呼ばれる革新的な適応型言語モデルを発表しました。このモデルは、高価な微調整なしで、推論中に動的に学習し、新しいタスクに適応できるため、大規模言語モデル(LLM)技術の重要な一歩を意味します。

Transformer²の中核となる革新は、独自の2段階の動的重み調整メカニズムにあります。まず、入力されたユーザーリクエストを分析して、タスクのニーズを理解します。次に、数学的手法を用いて、特異値分解(SVD)を利用してモデルの重みとタスクのニーズを調整します。モデルの重みの重要なコンポーネントを選択的に調整することで、Transformer²は時間のかかる再トレーニングなしでリアルタイムでパフォーマンスを最適化できます。これは、パラメータをトレーニング後に静的に維持するか、低ランク適応(LoRA)などの方法を用いて一部のパラメータのみを変更する従来の微調整方法とは対照的です。

QQ20250124-104642.png

Transformer 平方トレーニングと推論(出典:arXiv)

動的調整を実現するために、研究者たちは特異値微調整(SVF)の方法を採用しました。トレーニング時に、SVFはモデルのSVDコンポーネントから、zベクトルと呼ばれるスキル表現のセットを学習します。推論時に、Transformer²はプロンプトを分析して必要なスキルを特定し、対応するzベクトルを設定することで、プロンプトごとに最適化されたレスポンスを実現します。

テストの結果、Transformer²は、数学、コーディング、推論、視覚的な質問応答など、さまざまなタスクにおいてLoRAモデルを上回り、パラメータも少なくなっています。さらに注目すべきは、このモデルには知識転移能力があり、あるモデルで学習したzベクトルを別のモデルに適用できるため、幅広い応用可能性を示しています。

QQ20250124-104627.png

Transformer-squared(表のSVF)と基本モデルおよびLoRAの比較(出典:arXiv)

Sakana AIは、GitHubページでTransformer²コンポーネントのトレーニングコードを公開し、他の研究者や開発者への門戸を開放しました。

企業がLLMの応用を探求し続ける中、推論時のカスタマイズ技術は主流になりつつあります。Transformer²は、GoogleのTitansなどの他の技術とともに、LLMの使用方法を変えつつあり、ユーザーは再トレーニングなしで特定のニーズに合わせてモデルを動的に調整できます。この技術の進歩により、LLMはより幅広い分野でより有用で実用的になります。

Sakana AIの研究者によると、Transformer²は静的な人工知能と生命的な知能の架け橋を表しており、効率的でパーソナライズされた、完全に統合された人工知能ツールの基礎を築いています。