Google DeepMindが提案した百万専門家Mixtureモデルは、Transformerアーキテクチャに革命的な進歩をもたらした研究です。
百万もの小型専門家の中からスパース検索を行うモデルを想像してみてください。まるでSF小説のようですが、これがDeepMindの最新の研究成果です。この研究の中心は、計算コストとパラメータ数を分離する乗積キー技術を利用した、パラメータ効率の高い専門家検索メカニズムです。これにより、計算効率を維持しながら、Transformerアーキテクチャの可能性を最大限に引き出しています。
この研究のハイライトは、極端なMoE設定を探求しただけでなく、初めて100万を超える専門家への効率的なルーティングが学習可能な索引構造によって実現できることを実証したことです。これは、多くの人の中から問題解決に最適な専門家を迅速に見つけるようなもので、しかも計算コストを抑えながら実現しています。
実験では、PEERアーキテクチャは、密なFFW、粗粒度MoE、製品キーメモリ(PKM)層と比較して、優れた計算性能を示しました。これは理論上の勝利だけでなく、実用的な面でも大きな飛躍です。実証結果から、PEERは言語モデリングタスクにおいて、困惑度が低く、また、専門家の数と活性化専門家の数を調整することで性能が大幅に向上することが消去実験で示されました。
この研究の著者であるXu He(Owen)氏はGoogle DeepMindの研究科学者であり、彼の単独での探求は、AI分野に新たな知見をもたらしました。彼が示したように、パーソナライズ化とインテリジェントなアプローチによって、コンバージョン率の向上とユーザーの維持を図ることができ、これはAIGC分野において特に重要です。
論文アドレス:https://arxiv.org/abs/2407.04153