Das von Google DeepMind vorgeschlagene Mixture-of-Experts-Modell (MoE) mit einer Million Experten stellt einen revolutionären Fortschritt in der Transformer-Architektur dar.
Stellen Sie sich ein Modell vor, das aus einer Million Mini-Experten spärlich abrufen kann – klingt das nicht nach Science-Fiction? Genau das ist das Ergebnis der neuesten Forschung von DeepMind. Der Kern dieser Forschung ist ein parametrisch effizienter Experten-Abrufmechanismus, der die Produkt-Key-Technologie nutzt, um die Rechenkosten von der Parameteranzahl zu trennen. Dadurch wird das Potenzial der Transformer-Architektur bei gleichzeitiger Aufrechterhaltung der Rechenleistung voll ausgeschöpft.
Besonders hervorzuheben ist, dass diese Arbeit nicht nur extrem große MoE-Einstellungen untersucht, sondern auch erstmalig beweist, dass das Erlernen von Indexstrukturen effektiv zur Weiterleitung an über eine Million Experten führt. Das ist vergleichbar mit dem schnellen Auffinden weniger Experten, die ein Problem lösen können, in einer riesigen Menge von Menschen – und das alles bei kontrollierbaren Rechenkosten.
In Experimenten zeigte die PEER-Architektur eine herausragende Rechenleistung und übertraf dichte FFWs, grobkörnige MoEs und Produkt-Key-Speicher (PKM)-Schichten in Bezug auf die Effizienz. Dies ist nicht nur ein theoretischer Erfolg, sondern auch ein großer Sprung in der praktischen Anwendung. Die empirischen Ergebnisse zeigen die überlegene Leistung von PEER bei Sprachmodellierungsaufgaben. PEER weist nicht nur eine geringere Perplexität auf, sondern seine Leistung verbessert sich in Ablationsexperimenten auch durch die Anpassung der Anzahl der Experten und der Anzahl der aktiven Experten deutlich.
Autor dieser Arbeit ist Xu He (Owen), Forschungswissenschaftler bei Google DeepMind. Seine Einzelforschung liefert zweifellos neue Erkenntnisse für das Gebiet der KI. Wie er gezeigt hat, können wir durch personalisierte und intelligente Methoden die Conversion-Rate deutlich steigern und Benutzer binden – besonders wichtig im Bereich AIGC.
论文地址:https://arxiv.org/abs/2407.04153