O MA-LMM é um modelo multimodal de grande escala baseado em modelos de linguagem de grande porte, projetado principalmente para a compreensão de vídeos de longo prazo. Ele processa vídeos online e utiliza um armazenamento de memória para guardar informações de vídeos anteriores, permitindo a análise de longo prazo sem exceder os limites de comprimento de contexto do modelo de linguagem ou de memória da GPU, referenciando o conteúdo de vídeos históricos. O MA-LMM pode ser integrado perfeitamente aos modelos de linguagem multimodais atuais e obteve desempenho de ponta em tarefas como compreensão de vídeos longos, perguntas e respostas sobre vídeos e geração de legendas de vídeos.