Das ByteDance Doubao-Großmodellteam gab heute bekannt, dass es erfolgreich eine neue spärliche Modellarchitektur namens UltraMem entwickelt hat. Diese Architektur löst effektiv das Problem des hohen Speicherzugriffs bei der Inferenz von MoE (Mixture of Experts)-Modellen. Die Inferenzgeschwindigkeit ist im Vergleich zu MoE um das 2- bis 6-fache gestiegen, und die Inferenzkosten konnten um bis zu 83 % gesenkt werden. Dieser bahnbrechende Fortschritt eröffnet neue Wege für die effiziente Inferenz großer Modelle.
Die UltraMem-Architektur löst unter Beibehaltung der Modellleistung erfolgreich den Engpass des Speicherzugriffs bei der Inferenz von MoE-Architekturen. Die Ergebnisse zeigen, dass UltraMem bei gleichen Parametern und Aktivierungsbedingungen nicht nur eine bessere Modellleistung als MoE aufweist, sondern auch die Inferenzgeschwindigkeit um das 2- bis 6-fache erhöht. Darüber hinaus sind die Speicherzugriffskosten von UltraMem bei gängigen Batch-Größen nahezu vergleichbar mit denen von Dense-Modellen mit gleichem Rechenaufwand, wodurch die Inferenzkosten deutlich reduziert werden.
Das Forschungsteam trainierte ein UltraMem-Modell mit 20 Millionen Werten. Die Ergebnisse zeigen, dass dieses Modell bei gleichen Rechenressourcen sowohl eine branchenführende Inferenzgeschwindigkeit als auch Modellleistung erreicht. Dieses Ergebnis bestätigt die hervorragende Skalierbarkeit der UltraMem-Architektur und schafft die technische Grundlage für den Aufbau von Modellen mit Milliarden von Werten oder Experten.
Mit der zunehmenden Größe großer Modelle werden die Inferenzkosten und die Geschwindigkeit zu entscheidenden Faktoren für ihre Anwendung. Obwohl die MoE-Architektur bereits eine Entkopplung von Berechnung und Parametern ermöglicht, führt der hohe Speicherzugriffsbedarf bei der Inferenz zu erhöhten Verzögerungen. Die UltraMem-Architektur löst dieses Problem effektiv und bietet eine neue technologische Option für die groß angelegte Anwendung großer Modelle.