Los modelos de lenguaje extenso basados en Transformer demuestran la capacidad de aprendizaje con pocos ejemplos al proporcionar muestras de contexto. Sin embargo, investigadores de DeepMind han descubierto que los Transformer no pueden generalizar fuera del alcance de sus datos de preentrenamiento. A través de una investigación empírica, exploraron los problemas de generalización de los modelos Transformer y descubrieron que la capacidad de selección del modelo impone ciertas limitaciones a la capacidad de generalización.