AIの世界では、革新はいつの間にか訪れます。最近、TTTと呼ばれる全く新しいアーキテクチャが登場しました。これはスタンフォード大学、UCSD、UCバークレー、そしてMetaの研究者らによって提案され、TransformerやMambaを一晩で覆し、言語モデルに革命的な変化をもたらしました。

TTTは、Test-Time-Training layersの略で、勾配降下法を用いてコンテキストを圧縮し、従来のAttention機構を直接置き換える全く新しいアーキテクチャです。この方法は効率性を向上させるだけでなく、表現力豊かなメモリを持つ線形複雑度のアーキテクチャを解き放ち、数百万、さらには数十億ものトークンを含むLLMをコンテキスト内で訓練することを可能にしました。

1.jpg

TTT層の提案は、既存のRNNとTransformerアーキテクチャに対する深い洞察に基づいています。RNNは効率性が高いものの、表現能力に制限があります。一方、Transformerは表現能力が高いものの、計算コストがコンテキストの長さに比例して増加します。TTT層は両者の利点を巧みに組み合わせ、線形複雑度を維持しながら表現能力も向上させています。

実験では、TTT-LinearとTTT-MLPの2つのバリエーションが優れた性能を示し、短いコンテキストと長いコンテキストの両方でTransformerやMambaを凌駕しました。特に長いコンテキストのシナリオでは、TTT層の優位性がより顕著であり、長尺ビデオのモデリングなどのアプリケーションに大きな可能性を提供します。

2.jpg

TTT層の提案は、理論的に革新的であるだけでなく、実際的な応用においても大きな可能性を示しています。将来、TTT層は長尺ビデオのモデリングに応用され、高密度なフレームのサンプリングによってより豊富な情報を提供することが期待されます。これはTransformerにとっては負担ですが、TTT層にとっては好都合です。

この研究は、チームが5年間かけて磨き上げた成果であり、Yu Sun博士の博士研究員時代から構想が始まりました。彼らは探求を続け、様々な試行錯誤を経て、この画期的な成果を実現しました。TTT層の成功は、チームの不断の努力と革新的な精神の結晶です。

TTT層の登場は、AI分野に新たな活気と可能性をもたらしました。それは言語モデルに対する私たちの認識を変えるだけでなく、将来のAIアプリケーションのための新たな道を切り開きます。TTT層の将来の応用と発展に期待し、AI技術の進歩とブレークスルーを共に目撃しましょう。

論文アドレス:https://arxiv.org/abs/2407.04620