MA-LMM es un modelo multimodal a gran escala basado en modelos de lenguaje extenso, diseñado principalmente para la comprensión de videos a largo plazo. Procesa videos en línea y utiliza un almacén de memoria para almacenar información de videos anteriores, lo que le permite analizar contenido de videos históricos sin exceder los límites de longitud del contexto del modelo de lenguaje o las limitaciones de memoria de la GPU. MA-LMM se puede integrar perfectamente en los modelos de lenguaje multimodal actuales y ha logrado un rendimiento líder en tareas como la comprensión de videos largos, preguntas y respuestas sobre videos y generación de subtítulos de videos.