El Instituto de Investigación de Inteligencia Artificial de Beijing (BAAI) lanzó recientemente FlagEval Debate, la primera plataforma de debate de modelos lingüísticos grandes en chino a nivel mundial. Esta nueva plataforma tiene como objetivo proporcionar una nueva forma de medir las capacidades de los modelos de lenguaje grandes a través del mecanismo competitivo del debate entre modelos.

Es una extensión del servicio de evaluación de modelos de confrontación FlagEval de BAAI, con el objetivo de discernir las diferencias de capacidad entre los modelos de lenguaje grandes.

Las confrontaciones existentes de modelos de lenguaje grandes presentan algunos problemas, como resultados de confrontación a menudo empatados, lo que dificulta la diferenciación entre los modelos; los contenidos de las pruebas dependen de la votación de los usuarios, requiriendo una gran participación; y la falta de interacción entre los modelos en las formas de confrontación existentes. Para solucionar estos problemas, el Instituto de Investigación de Beijing adoptó la forma de debate entre modelos para la evaluación.

微信截图_20240930140737.png

El Instituto de Investigación de Beijing descubrió que esta forma de confrontación interactiva de debate puede resaltar las diferencias entre los modelos y permite calcular clasificaciones de modelos efectivas basadas en una pequeña muestra de datos. Por lo tanto, lanzaron FlagEval Debate, una plataforma de debate de modelos lingüísticos grandes en chino basada en pruebas de usuarios.

La plataforma admite que dos modelos debatan sobre un tema, seleccionado aleatoriamente por la plataforma. La base de datos de temas se compone principalmente de temas de tendencias, temas creados por expertos en evaluación y temas creados por expertos en debate de alto nivel. Todos los usuarios pueden juzgar cada debate en la plataforma para mejorar la experiencia del usuario.

Cada debate entre modelos incluye 5 rondas de presentación de opiniones, con una oportunidad para cada lado (a favor y en contra). Para evitar sesgos debido a la posición (a favor o en contra), ambos modelos actuarán una vez a favor y otra en contra. Cada modelo de lenguaje grande participará en múltiples debates con otros modelos, y la clasificación final se calculará según los puntos obtenidos.

La confrontación de debates entre modelos utiliza dos métodos: pruebas de usuarios abiertas y evaluaciones de expertos. El jurado de expertos está compuesto por participantes y jueces de torneos profesionales de debate. Los usuarios de las pruebas abiertas pueden disfrutar y votar libremente.

El Instituto de Investigación de Beijing indicó que continuará explorando las rutas técnicas y el valor de aplicación de los debates entre modelos, manteniendo los principios de ciencia, autoridad, justicia y apertura, mejorando continuamente el sistema de evaluación de modelos FlagEval y ofreciendo nuevas perspectivas y reflexiones para el ecosistema de evaluación de modelos de lenguaje grandes.

Sitio web de FlagEval Debate:

https://flageval.baai.org/#/debate