Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

El equipo de OpenCompass del Laboratorio de Inteligencia Artificial de Shanghai y ModelScope anunciaron recientemente una importante actualización de su plataforma de evaluación de modelos grandes, Compass Arena: el lanzamiento de Compass Multi-Modal Arena, una nueva sección dedicada a modelos multimodales. Esta nueva sección ofrece a los usuarios una plataforma para experimentar y comparar el rendimiento de varios modelos multimodales líderes, ayudándoles a encontrar el modelo que mejor se adapta a sus necesidades.

微信截图_20240813080725.png

El sitio web y la página de ModelScope de Compass Multi-Modal Arena ya están disponibles públicamente, ofreciendo una interfaz sencilla e intuitiva. Los usuarios pueden cargar imágenes e introducir preguntas; el sistema asignará dos modelos multimodales anónimos para generar respuestas basadas en la entrada. Los usuarios evalúan subjetivamente la calidad del contenido generado y seleccionan el modelo que consideran superior. Tras la evaluación, se muestra el nombre de cada modelo.

微信截图_20240813080734.png

La plataforma también incluye una base de datos de preguntas destacadas, útil para los usuarios que no puedan cargar imágenes. Esta base de datos se centra en tareas de preguntas y respuestas visuales subjetivas, como la comprensión de memes, el análisis de obras de arte y la crítica fotográfica. Este diseño tiene como objetivo evaluar el rendimiento y la experiencia del usuario de los modelos multimodales en tareas subjetivas.

Sitio web de Compass Multi-Modal Arena:

https://opencompass.org.cn/arena?type=multimodal

Página de ModelScope:

https://modelscope.cn/studios/opencompass/CompassArena

Página de HuggingFace:

https://huggingface.co/spaces/opencompass/CompassArena

Enlace al código abierto de la herramienta de evaluación multimodal OpenCompass:

https://github.com/open-compass/VLMEvalKit

Noticias de IA

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

AIbase基地