El vertiginoso desarrollo de los modelos de inteligencia artificial (IA) ha llevado a una mejora continua de su rendimiento, pero también ha generado dudas entre los usuarios sobre la veracidad de sus resultados. Para abordar este problema, el Vector Institute, fundado por Geoffrey Hinton, ha lanzado un estudio de investigación sobre la evaluación del estado actual de la IA. Este estudio evalúa exhaustivamente 11 modelos de código abierto y cerrados de vanguardia a través de una clasificación interactiva, cubriendo 16 puntos de referencia en áreas como matemáticas, conocimiento general, codificación y seguridad.

John Willes, gerente de infraestructura de IA e ingeniería de investigación del Vector Institute, afirma: "Investigadores, desarrolladores, reguladores y usuarios finales pueden verificar los resultados de forma independiente, comparar el rendimiento de los modelos y construir sus propias referencias y evaluaciones, impulsando así la mejora y la rendición de cuentas."

Modelos grandes Metaverso (2)

Nota de la fuente de la imagen: La imagen fue generada por IA, con licencia de Midjourney.

En esta evaluación, los modelos con mejor rendimiento fueron DeepSeek y o1 de OpenAI, mientras que Command R+ obtuvo los peores resultados, mostrando un rendimiento inferior debido a su menor tamaño y antigüedad en la prueba.

El estudio reveló que los modelos de código cerrado suelen superar a los de código abierto en tareas complejas de conocimiento y razonamiento, pero el excelente desempeño de DeepSeek demuestra que los modelos de código abierto también pueden ser competitivos. Willes señala: "En tareas sencillas, estos modelos son bastante capaces, pero a medida que aumenta la complejidad, observamos una disminución significativa en la capacidad de razonamiento y comprensión."

Además, los 11 modelos enfrentaron desafíos en los "puntos de referencia de proxy" que evalúan la capacidad de resolución de problemas reales, especialmente en ingeniería de software y otras tareas que requieren razonamiento y planificación abiertos. Para abordar esto, el Vector Institute desarrolló el punto de referencia de comprensión de múltiples tareas masivas multimodales (MMMU) para evaluar la capacidad de los modelos para procesar imágenes y texto.

En la evaluación de la comprensión multimodal, o1 mostró una capacidad "excelente", especialmente en diferentes formatos y niveles de dificultad. Sin embargo, Willes destaca que aún se necesita más trabajo para lograr sistemas verdaderamente multimodales que puedan procesar uniformemente entradas de texto, imágenes y audio.

En cuanto a los desafíos de la evaluación, Willes señala que la fuga de evaluación es un problema importante: los modelos funcionan bien en conjuntos de datos de evaluación conocidos, pero no en datos nuevos. Cree que el desarrollo de puntos de referencia más innovadores y evaluaciones dinámicas será clave para resolver este problema.