Investigaciones recientes muestran que, aunque la inteligencia artificial (IA) destaca en áreas como la programación y la creación de contenido, aún se queda corta al abordar problemas históricos complejos. Un estudio presentado recientemente en la conferencia NeurIPS indica que incluso los modelos lingüísticos grandes (LLM) más avanzados tienen dificultades para obtener resultados satisfactorios en pruebas de conocimiento histórico.

El equipo de investigación desarrolló un conjunto de pruebas llamado Hist-LLM para evaluar tres modelos lingüísticos líderes: GPT-4 de OpenAI, Llama de Meta y Gemini de Google. Las pruebas se basaron en la base de datos histórica global Seshat, y los resultados fueron decepcionantes: GPT-4 Turbo, el que mejor desempeño mostró, alcanzó una precisión de solo el 46%.

Robot de IA escribiendo un ensayo

Nota de la imagen: Imagen generada por IA, servicio de licencias de imágenes Midjourney

María del Rio-Chanona, profesora asociada del University College London, explicó: "Estos modelos funcionan bien con los hechos históricos básicos, pero fallan cuando se trata de investigaciones históricas profundas a nivel de doctorado". El estudio descubrió que la IA a menudo comete errores en los detalles, como juzgar erróneamente si ciertos períodos del antiguo Egipto poseían o no tecnologías militares específicas o ejércitos permanentes.

Los investigadores creen que este bajo rendimiento se debe a la tendencia de los modelos de IA a realizar inferencias a partir de la narrativa histórica dominante, lo que dificulta la comprensión precisa de los detalles históricos más sutiles. Además, el estudio también encontró que estos modelos tienen un peor desempeño al tratar problemas históricos de regiones como el África subsahariana, lo que revela posibles sesgos en los datos de entrenamiento.

Peter Turchin, director de investigación del Centro de Ciencias de la Complejidad (CSH), afirma que este hallazgo indica que, en ciertas áreas especializadas, la IA aún no puede reemplazar a los expertos humanos. Sin embargo, el equipo de investigación mantiene el optimismo sobre las perspectivas de aplicación de la IA en la investigación histórica y está mejorando los criterios de evaluación para ayudar a desarrollar modelos mejores.