En la era del rápido desarrollo de la inteligencia artificial, evaluar y comparar eficazmente la potencia de diferentes modelos de IA generativa se ha convertido en un desafío crucial. Los métodos tradicionales de evaluación comparativa de IA están mostrando sus limitaciones, lo que ha llevado a los desarrolladores de IA a explorar vías de evaluación más innovadoras.

Recientemente, un sitio web llamado "Minecraft Benchmark" (abreviado como MC-Bench) ha surgido, destacando por su singularidad: utiliza el juego de construcción de mundo abierto de Microsoft, Minecraft, como plataforma. Permite a los usuarios comparar las creaciones del juego generadas por modelos de IA a partir de indicaciones para evaluar su rendimiento. Sorprendentemente, el creador de esta novedosa plataforma es un estudiante de último año de secundaria.

QQ_1742528807600.png

Minecraft se transforma en una arena de competición para IA

El sitio web MC-Bench ofrece una forma intuitiva y atractiva de evaluar modelos de IA. Los desarrolladores introducen diferentes indicaciones en los modelos de IA participantes, y estos generan construcciones en Minecraft. Los usuarios votan por las construcciones que consideran más acordes con las indicaciones y mejores, sin saber qué modelo de IA creó cada una. Solo después de la votación, se revela el "creador" de cada construcción. Este mecanismo de "votación a ciegas" pretende reflejar de manera más objetiva la capacidad de generación real de los modelos de IA.

Adi Singh explica que la elección de Minecraft como plataforma de evaluación comparativa no se debe solo a la popularidad del juego (es uno de los videojuegos más vendidos de la historia). Más importante aún, su amplia difusión y la familiaridad con su estilo visual permiten que incluso quienes no han jugado puedan juzgar con relativa facilidad qué piña construida con bloques se ve más realista. Cree que "Minecraft facilita la visualización del progreso [del desarrollo de la IA]", y que esta evaluación visual es más convincente que los indicadores de texto puros.

Enfoque en las funciones

Actualmente, MC-Bench se centra principalmente en tareas de construcción sencillas, como la creación de estructuras de juego a partir de indicaciones como "Rey de las heladas" o "Un encantador bungalow tropical en una playa prístina", mediante la escritura de código por parte de los modelos de IA. Esencialmente, se trata de una prueba de referencia de programación, pero su ingenio radica en que los usuarios no necesitan comprender código complejo; la evaluación de la calidad de las obras se basa en el efecto visual intuitivo, lo que aumenta considerablemente la participación en el proyecto y el potencial de recopilación de datos.

La filosofía de diseño de MC-Bench es permitir que el público perciba de forma más intuitiva el nivel de desarrollo de la tecnología de IA. "La clasificación actual coincide mucho con mi experiencia personal al usar estos modelos, a diferencia de muchas pruebas de referencia de texto puro", afirma Singh. Cree que MC-Bench podría ofrecer una referencia valiosa a las empresas del sector, ayudándolas a determinar si la dirección de su investigación y desarrollo en IA es la correcta.

Aunque MC-Bench fue iniciado por Adi Singh, cuenta con la colaboración de un grupo de voluntarios. Cabe destacar que varias empresas líderes en IA, como Anthropic, Google, OpenAI y Alibaba, han subvencionado el proyecto para el uso de sus productos en las pruebas de referencia. Sin embargo, el sitio web de MC-Bench declara que estas empresas no están relacionadas con el proyecto de ninguna otra manera.

Singh tiene grandes expectativas para el futuro de MC-Bench. Afirma que las sencillas construcciones actuales son solo el comienzo, y que en el futuro se podrían ampliar a tareas más complejas y orientadas a objetivos a largo plazo. Cree que los juegos podrían ser un medio seguro y controlable para probar la capacidad de "razonamiento de agentes" de la IA, algo difícil de lograr en la vida real, por lo que ofrecen una ventaja en las pruebas.

Una nueva y pionera forma de evaluar la IA

Además de MC-Bench, otros juegos como Street Fighter y Pictionary se han utilizado como pruebas de referencia experimentales para la IA, lo que refleja la naturaleza altamente especializada del campo de las pruebas de referencia de IA. Las evaluaciones estandarizadas tradicionales a menudo presentan una "ventaja de localía", ya que los modelos de IA se han optimizado durante su entrenamiento para ciertos tipos de problemas, especialmente aquellos que requieren memorización o inferencia básica. Por ejemplo, el GPT-4 de OpenAI obtuvo una excelente puntuación del 88 % en el examen LSAT, pero no pudo determinar cuántas "R" hay en la palabra "strawberry".

QQ_1742528827128.png

El Claude3.7Sonnet de Anthropic alcanzó una precisión del 62,3 % en las pruebas de referencia de ingeniería de software estandarizadas, pero su rendimiento jugando a Pokémon fue inferior al de la mayoría de los niños de cinco años.

La aparición de MC-Bench ofrece una perspectiva nueva y más fácil de comprender para evaluar la capacidad de los modelos de IA generativa. Al utilizar una plataforma de juego conocida por el público, transforma las complejas capacidades de la IA en comparaciones visuales intuitivas, permitiendo que más personas participen en la evaluación y comprensión de la IA. Aunque el valor real de este método de evaluación aún se está debatiendo, sin duda nos proporciona una nueva ventana para observar el desarrollo de la IA.