La capacidad de la Inteligencia Artificial (IA) está avanzando a pasos agigantados, y la forma de medir con precisión su nivel de "inteligencia" ha sido un foco de atención en la industria. Sin embargo, al igual que medir la inteligencia humana, evaluar la inteligencia de la IA no es tarea fácil, y las pruebas y los estándares existentes a menudo solo ofrecen una evaluación aproximada. En los últimos años, a medida que los modelos de IA se han vuelto más complejos, las limitaciones de los estándares tradicionales se han hecho más evidentes, lo que ha impulsado a la industria a explorar activamente nuevos sistemas de evaluación más completos y que reflejen mejor las capacidades de aplicación real.
Limitaciones de los estándares tradicionales: Puntuación alta ≠ Alta capacidad
Durante mucho tiempo, la comunidad de IA generativa ha dependido de estándares como MMLU (Comprensión del Lenguaje Multilingüe a Gran Escala) para evaluar la capacidad de los modelos. Estos estándares suelen utilizar preguntas de opción múltiple que abarcan múltiples campos académicos, lo que facilita la comparación directa. Sin embargo, se considera que esta forma no logra capturar realmente la capacidad intelectual de la IA. Por ejemplo, algunos modelos obtienen puntuaciones similares en MMLU, pero su rendimiento en aplicaciones reales presenta diferencias notables, lo que indica que una alta puntuación en teoría no representa completamente la capacidad real.
Además, incluso en estándares como los exámenes de ingreso universitario, una puntuación alta no implica que los candidatos tengan el mismo nivel de inteligencia o que hayan alcanzado su límite intelectual. Esto demuestra que los estándares solo son una medida aproximada de la capacidad, no una medida precisa. Más preocupante aún, algunos modelos avanzados cometen "errores básicos" en tareas aparentemente sencillas, como no poder contar correctamente letras específicas en una palabra o equivocarse al comparar el tamaño de los números decimales. Estos casos muestran la desconexión entre el progreso impulsado por los estándares tradicionales y la fiabilidad de la IA en el mundo real.
Nuevos estándares: Enfoque en el razonamiento general y las aplicaciones prácticas
Ante las deficiencias de los estándares tradicionales, la industria de la IA está explorando activamente nuevos marcos de evaluación. El estándar ARC-AGI, publicado recientemente, que pretende impulsar el desarrollo de modelos hacia el razonamiento general y la resolución creativa de problemas, ha sido bien recibido por la industria. Otro estándar nuevo y notable es el "Examen final humano", que contiene 3000 preguntas de varios pasos revisadas por pares, que abarcan múltiples disciplinas y buscan desafiar a los sistemas de IA en el razonamiento a nivel de experto. Los resultados preliminares muestran que los modelos de OpenAI lograron un 26,6 % en la prueba un mes después de su lanzamiento, lo que demuestra el rápido progreso de la IA.
Sin embargo, al igual que los estándares tradicionales, el "Examen final humano" evalúa principalmente la capacidad de conocimiento y razonamiento en un entorno aislado, ignorando la capacidad de uso de herramientas, cada vez más importante en las aplicaciones reales. GPT-4, con herramientas, solo logró aproximadamente un 15 % en el estándar GAIA más complejo, lo que confirma aún más la brecha entre los estándares tradicionales y las capacidades reales.
Estándar GAIA: Un nuevo estándar para medir la capacidad de aplicación real de la IA
Para compensar las deficiencias de los estándares tradicionales, la industria ha lanzado el estándar GAIA, más cercano a las aplicaciones reales. GAIA fue creado en colaboración entre Meta-FAIR, Meta-GenAI, HuggingFace y el equipo de AutoGPT, y contiene 466 preguntas cuidadosamente diseñadas, divididas en tres niveles de dificultad. Estas preguntas prueban exhaustivamente las capacidades clave de la IA, como la navegación web, la comprensión multimodal, la ejecución de código, el procesamiento de archivos y el razonamiento complejo, aspectos esenciales para las aplicaciones comerciales reales de la IA.
El diseño de las preguntas del estándar GAIA simula la complejidad de los problemas empresariales reales. Las preguntas de Nivel 1 requieren aproximadamente 5 pasos y una herramienta para resolverlas, las de Nivel 2 requieren de 5 a 10 pasos y varias herramientas, mientras que las de Nivel 3 pueden requerir hasta 50 pasos discretos y cualquier número de herramientas. Esta estructura refleja con mayor realismo el hecho de que la resolución de problemas en el mundo real a menudo requiere la colaboración de varios pasos y herramientas.
Resultados preliminares de GAIA: Se destaca la flexibilidad y la especialización
Los resultados preliminares del estándar GAIA muestran que un modelo de IA centrado en la flexibilidad logró una precisión del 75 %, superando a Magnetic-1 de Microsoft (38 %) y Langfun Agent de Google (49 %). El éxito de este modelo se debe a su uso de un modelo especializado que combina la comprensión y el razonamiento de audio y video, y utiliza Anthropic's Sonnet3.5 como modelo principal.
La aparición de GAIA refleja un cambio más amplio en el campo de la evaluación de la IA: estamos pasando de evaluar aplicaciones de software como servicio (SaaS) independientes a evaluar agentes de IA capaces de coordinar múltiples herramientas y flujos de trabajo. A medida que las empresas dependen cada vez más de los sistemas de IA para gestionar tareas complejas y de varios pasos, estándares como GAIA pueden ofrecer una medición de la capacidad más significativa que las preguntas de opción múltiple tradicionales.
Acceso al estándar: https://huggingface.co/gaia-benchmark