Los modelos de lenguaje extenso basados en Transformer demuestran la capacidad de aprendizaje con pocos ejemplos al proporcionar muestras de contexto. Sin embargo, investigadores de DeepMind han descubierto que los Transformer no pueden generalizar fuera del alcance de sus datos de preentrenamiento. A través de una investigación empírica, exploraron los problemas de generalización de los modelos Transformer y descubrieron que la capacidad de selección del modelo impone ciertas limitaciones a la capacidad de generalización.
DeepMind señala que los transformadores no pueden generalizar fuera del alcance de los datos de preentrenamiento

机器之心
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.