En el mundo de la inteligencia artificial, el examen de ingreso a la universidad (Gaokao) ya no es solo un escenario para humanos. Recientemente, el Laboratorio de Inteligencia Artificial de Shanghai nos ha permitido presenciar la capacidad académica de la IA con una peculiar "Gaokao". Utilizaron el sistema de evaluación OpenCompass para someter a siete modelos de IA, incluyendo GPT-4o, a una prueba completa de chino, matemáticas e inglés.
Fuente: Imagen generada por IA, servicio de licencias de imágenes Midjourney
La prueba utilizó el examen nacional de nivel I, asegurando que todos los modelos de código abierto participantes ya habían sido publicados antes del examen, garantizando así la imparcialidad. Además, las "respuestas" de estas IA fueron calificadas manualmente por profesores con experiencia en la corrección de exámenes de ingreso a la universidad, buscando acercarse a los estándares de calificación reales.
Los modelos participantes provienen de diferentes orígenes: el modelo de diálogo Mixtral8x22B de código abierto de la empresa francesa de IA Mistral, Yi-1.5-34B de Zero One, GLM-4-9B de Zhipu AI, InternLM2-20B-WQX del Laboratorio de Inteligencia Artificial de Shanghai y la serie Qwen2 de Alibaba. GPT-4o, como modelo de código cerrado, participó solo como referencia.
Los resultados revelaron que Qwen2-72B obtuvo el primer lugar con una puntuación total de 303 puntos, seguido de cerca por GPT-4o con 296 puntos, e InternLM2-20B-WQX en tercer lugar con 295.5 puntos. Estos modelos mostraron un buen desempeño en chino e inglés, con una tasa de puntuación promedio del 67% en chino y del 81% en inglés. Sin embargo, en matemáticas, la tasa de puntuación promedio de todos los modelos fue solo del 36%, lo que muestra que la IA aún tiene mucho margen de mejora en el razonamiento matemático.
Los profesores calificadores analizaron exhaustivamente las respuestas de los modelos de IA. En chino, los modelos generalmente manejaron bien la comprensión lectora de textos modernos, pero mostraron ciertas deficiencias en los textos clásicos y en la redacción. En matemáticas, aunque los modelos demostraron una buena capacidad para memorizar fórmulas, les faltó flexibilidad en la aplicación de las mismas durante la resolución de problemas. El desempeño general en inglés fue bueno, pero algunos modelos obtuvieron puntuaciones bajas en ciertos tipos de preguntas.
Esta "Gaokao de grandes modelos" no solo nos ha mostrado el potencial de la IA en el ámbito académico, sino que también ha revelado sus limitaciones en la comprensión y aplicación del conocimiento. Con el avance continuo de la tecnología, tenemos razones para creer que la IA del futuro será más inteligente y servirá mejor a la sociedad humana.