El 4 de septiembre de 2024, el Instituto de Investigación de Inteligencia Artificial de Beijing (BAAI) anunció el lanzamiento de FlagEval, el primer servicio de evaluación de modelos de batalla a nivel mundial que incluye la generación de vídeo a partir de texto.
Este servicio está abierto a los usuarios y abarca aproximadamente 40 modelos nacionales e internacionales, admitiendo la evaluación personalizada online y offline de cuatro tareas principales: preguntas y respuestas en lenguaje natural, comprensión de imágenes y texto multimodales, generación de imágenes a partir de texto y generación de vídeo a partir de texto. El lanzamiento de FlagEval no solo ofrece evaluaciones con preguntas preestablecidas sobre comprensión básica, aplicación del conocimiento, capacidad de codificación y capacidad de razonamiento, sino que también introduce por primera vez un sistema de puntuación jerárquica de sesgo subjetivo para revelar con mayor precisión las diferencias en el rendimiento de los modelos.
El servicio utiliza un mecanismo anónimo para las evaluaciones, garantizando la imparcialidad del proceso. Los usuarios pueden participar en las evaluaciones a través de la página web o la primera entrada móvil en China, experimentando una evaluación de modelos de batalla eficiente. Los resultados de la puntuación de FlagEval se publicarán inmediatamente, formando una clasificación de la arena de batalla que mostrará la capacidad de batalla de cada modelo.
El Instituto de Investigación de Inteligencia Artificial de Beijing declaró que se publicará el código abierto de los datos de toda la cadena de evaluación de modelos de batalla para promover el desarrollo del ecosistema de evaluación de modelos a gran escala. El lanzamiento de FlagEval amplía aún más la distribución tecnológica y el desarrollo de métodos e instrumentos del BAAI en el campo de la evaluación de modelos, proporcionando nuevas herramientas de prueba y evaluación para la investigación y aplicación en el campo de la inteligencia artificial.
Dirección de acceso:https://flageval.baai.ac.cn/#/home