Con el lanzamiento de GPT-4, los modelos multimodales de lenguaje grande (MLLM) se han convertido en un tema candente. El equipo de Yi Ma propuso el marco EMT para evaluar el olvido catastrófico en MLLM después del ajuste fino. Los experimentos revelaron que, si bien el ajuste fino de los MLLM mejora el rendimiento en el conjunto de datos de ajuste fino, también provoca una disminución del rendimiento en otros conjuntos de datos.
Durante el proceso de ajuste fino, los MLLM generan texto alucinatorio relacionado con el conjunto de datos de ajuste fino, ignorando la pregunta original. Esta investigación proporciona un marco y una base para trabajos futuros, aunque el diseño del modelo y las técnicas de entrenamiento aún requieren optimización. El equipo de Yi Ma realizó la primera evaluación sistemática del problema del olvido catastrófico en MLLM, equilibrando las compensaciones entre diferentes capacidades.