El equipo de OpenCompass del Laboratorio de Inteligencia Artificial de Shanghai y ModelScope anunciaron recientemente una importante actualización de su plataforma de evaluación de modelos grandes, Compass Arena: el lanzamiento de Compass Multi-Modal Arena, una nueva sección dedicada a modelos multimodales. Esta nueva sección ofrece a los usuarios una plataforma para experimentar y comparar el rendimiento de varios modelos multimodales líderes, ayudándoles a encontrar el modelo que mejor se adapta a sus necesidades.
El sitio web y la página de ModelScope de Compass Multi-Modal Arena ya están disponibles públicamente, ofreciendo una interfaz sencilla e intuitiva. Los usuarios pueden cargar imágenes e introducir preguntas; el sistema asignará dos modelos multimodales anónimos para generar respuestas basadas en la entrada. Los usuarios evalúan subjetivamente la calidad del contenido generado y seleccionan el modelo que consideran superior. Tras la evaluación, se muestra el nombre de cada modelo.
La plataforma también incluye una base de datos de preguntas destacadas, útil para los usuarios que no puedan cargar imágenes. Esta base de datos se centra en tareas de preguntas y respuestas visuales subjetivas, como la comprensión de memes, el análisis de obras de arte y la crítica fotográfica. Este diseño tiene como objetivo evaluar el rendimiento y la experiencia del usuario de los modelos multimodales en tareas subjetivas.
Sitio web de Compass Multi-Modal Arena:
https://opencompass.org.cn/arena?type=multimodal
Página de ModelScope:
https://modelscope.cn/studios/opencompass/CompassArena
Página de HuggingFace:
https://huggingface.co/spaces/opencompass/CompassArena
Enlace al código abierto de la herramienta de evaluación multimodal OpenCompass:
https://github.com/open-compass/VLMEvalKit