企業が大型言語モデル(LLM)をますます活用するにつれ、モデルの知識の正確性を高め、幻覚現象を減らすことが重要な課題となっています。Meta AIの研究者たちは新たな論文で、「拡張可能なメモリ層」を提案し、この問題に対する解決策となる可能性を示唆しています。

Meta、メタバース、Facebook

拡張可能なメモリ層の中心的な考え方は、推論時の計算リソースを増やすことなく、LLMにパラメータを追加することで学習能力を高めることです。このアーキテクチャは、大量の事実知識を保存する必要がある一方で、推論速度を維持したいアプリケーションシナリオに適しています。

従来の言語モデルは、「密層」を使用して大量の情報をエンコードします。密層では、推論時にほぼすべてのパラメータが同時に活性化され、複雑な関数を学習できますが、これには追加の計算とエネルギーリソースが必要です。一方、単純な事実知識については、関連メモリアーキテクチャを持つ単純な層を使用する方が効率的で理解しやすいです。これがメモリ層の役割です。メモリ層は、単純なスパース活性化とキーバリュー検索メカニズムを使用して知識をエンコードおよび検索します。スパース層は密層よりもメモリ消費量が多いものの、同時に少量のパラメータしか使用しないため、計算効率が向上します。

メモリ層は長年存在していますが、現代の深層学習アーキテクチャではほとんど使用されていません。これは、現在のハードウェアアクセラレータに合わせて最適化されていないことが主な理由です。最先端のLLMは通常、何らかの形式の「専門家混合」アーキテクチャを採用しており、これはメモリ層と類似しています。専門家混合モデルは、複数の専門化された小型の専門家コンポーネントで構成され、ルーティングメカニズムによって推論時に特定の専門家を活性化します。

メモリ層は計算上は軽量だがメモリ消費量が多いという課題を克服するために、Metaの研究者たちは、大規模なアプリケーションで実現可能性を高めるためのいくつかの改良策を提案しました。彼らはメモリ層を並列化し、複数のGPUに数百万個のキーバリューペアを格納できるようになり、モデルの動作速度を低下させることはありません。さらに、彼らは高メモリ帯域幅操作を処理するための特定のCUDAカーネルを開発し、パラメータ共有メカニズムを実装して、複数のメモリ層が1セットのメモリパラメータを共有できるようにしました。

Llamaモデルを修正し、1つ以上の密層を共有メモリ層に置き換えることで、研究者たちはメモリ拡張モデルをテストしました。彼らの研究によると、メモリモデルは複数のタスクで優れた性能を示し、特に事実知識が必要なタスクでは、密なベースラインを明らかに上回り、計算リソースを2〜4倍使用したモデルと競合できるほどです。

論文へのリンク:https://arxiv.org/abs/2412.09764

要点:

🧠 拡張可能なメモリ層は、計算リソースを増やすことなく、言語モデルの学習能力を高めることができます。

💡 研究によると、メモリ層は複数のタスクで優れた性能を示し、特に事実知識が必要な場合に顕著です。

🚀 Metaの研究者たちは、忘却と幻覚現象を減らすために、次世代AIアーキテクチャにメモリ層を統合することを提唱しています。