大语言模型 Transformer 通过提供上下文样本进行少样本学习的能力,但 DeepMind 的研究者发现 Transformer 无法在预训练数据范围外实现泛化能力。研究者通过实证研究探讨了 Transformer 模型的泛化问题,并发现模型选择能力对于泛化能力具有一定限制。