El equipo de modelos grandes de Doubao de ByteDance anunció hoy el desarrollo exitoso de una nueva arquitectura de modelo disperso, UltraMem. Esta arquitectura resuelve eficazmente el problema de alto acceso a memoria en la inferencia de modelos MoE (Mixture of Experts), aumentando la velocidad de inferencia entre 2 y 6 veces y reduciendo el costo de inferencia hasta en un 83%. Este avance innovador abre una nueva vía para la inferencia eficiente de modelos grandes.
La arquitectura UltraMem, manteniendo la efectividad del modelo, resuelve con éxito el cuello de botella de acceso a memoria en la inferencia de la arquitectura MoE. Los resultados experimentales muestran que, con los mismos parámetros y condiciones de activación, UltraMem no solo supera a MoE en efectividad del modelo, sino que también aumenta la velocidad de inferencia entre 2 y 6 veces. Además, con tamaños de lote comunes, el costo de acceso a memoria de UltraMem es casi equivalente al de un modelo denso con el mismo cálculo, reduciendo significativamente el costo de inferencia.
El equipo de investigación entrenó un modelo UltraMem con 20 millones de valores. Los resultados experimentales muestran que, con los mismos recursos computacionales, este modelo logra una velocidad de inferencia y un rendimiento del modelo líderes en la industria. Este resultado verifica las excelentes características de escalabilidad de la arquitectura UltraMem, sentando las bases técnicas para la construcción de modelos con miles de millones de valores o expertos.
A medida que aumenta el tamaño de los modelos grandes, el costo y la velocidad de inferencia se convierten en factores clave que limitan su aplicación. Aunque la arquitectura MoE ya ha logrado la desacoplamiento del cálculo y los parámetros, su alta demanda de acceso a memoria durante la inferencia provoca un aumento del retardo. La propuesta de la arquitectura UltraMem resuelve eficazmente este problema, ofreciendo una nueva opción tecnológica para la aplicación a gran escala de modelos grandes.