Com o lançamento do GPT-4, os modelos de linguagem multimodais (MLLMs) se tornaram um tópico de grande interesse. A equipe de Yi Ma propôs a estrutura EMT para avaliar o esquecimento catastrófico em MLLMs após o ajuste fino. Os experimentos revelaram que, embora o ajuste fino de MLLMs melhore o desempenho em conjuntos de dados específicos, também leva à queda do desempenho em outros conjuntos de dados.
Durante o processo de ajuste fino, os MLLMs podem gerar texto ilusório relacionado ao conjunto de dados de ajuste fino, ignorando a questão original. Esta pesquisa fornece uma estrutura e um benchmark para trabalhos futuros, sendo necessário aprimorar ainda mais o design do modelo e as técnicas de treinamento. A equipe de Yi Ma realizou a primeira avaliação sistemática do problema de esquecimento catastrófico em MLLMs, buscando um equilíbrio entre diferentes capacidades.