研究チームは最近、大規模言語モデルの効率を飛躍的に向上させる画期的な新手法「T-FREE」を発表しました。Aleph Alpha、ダルムシュタット工科大学、hessian.AI、ドイツ人工知能研究センター(DFKI)の科学者らが共同で開発したこの驚くべき技術は、「マーカーレスのスパース表現によるメモリ効率の良い埋め込み」を意味します。
従来、テキストをコンピューターが理解できる数値形式に変換するためにマーカーを使用していましたが、T-FREEは異なるアプローチを取ります。文字の三つ組(「トリプレット」と呼びます)を利用し、スパースな活性化によって単語を直接モデルに埋め込みます。この革新的な手法により、埋め込み層のパラメータ数が驚異の85%以上削減され、テキスト分類や質問応答などのタスクにおけるモデルの性能は全く損なわれませんでした。
T-FREEのもう一つの大きな特徴は、単語間の形態的類似性を巧みにモデル化している点です。「house」、「houses」、「domestic」などの日常的に見られる単語のように、T-FREEはこれらの類似した単語をモデル内でより効率的に表現できます。研究者らは、類似した単語は埋め込み時に互いに近接している方が良いと考え、より高い圧縮率を実現しています。そのため、T-FREEは埋め込み層のサイズを縮小するだけでなく、テキストの平均符号化長も56%削減しました。
さらに特筆すべきは、T-FREEが異なる言語間の転移学習において特に優れた性能を示すことです。実験では、30億パラメータのモデルを用いて、まず英語で学習し、次にドイツ語で学習したところ、T-FREEは従来のマーカーベースの手法をはるかに凌駕する適応性を示しました。
しかし、研究者らは現在の成果に対して謙虚な姿勢を保っています。これまでの実験は最大30億パラメータのモデルに限られており、今後、より大規模なモデルとデータセットを用いたさらなる評価を行う予定です。