Modelos de Lenguaje Amplios Multimodales
Proporciona una evaluación completa de MLLM
Producto ComúnProductividadMLLMHerramienta de evaluación
Esta herramienta tiene como objetivo evaluar la capacidad de generalización, la confiabilidad y la capacidad de razonamiento causal de los MLLM propietarios y de código abierto más recientes, a través de un estudio cualitativo desde cuatro modalidades: texto, código, imágenes y video, con el fin de mejorar la transparencia de los MLLM. Creemos que estas propiedades son factores representativos clave para definir la fiabilidad de los MLLM y respaldar diversas aplicaciones downstream. En concreto, hemos evaluado GPT-4 y Gemini (propietarios) y 6 MLLM y LLMs de código abierto. En total, hemos evaluado 230 casos diseñados manualmente, cuyos resultados cualitativos se resumen en 12 puntuaciones (es decir, 4 modalidades multiplicadas por 3 propiedades). En total, hemos revelado 14 hallazgos empíricos que ayudan a comprender las capacidades y limitaciones de los MLLM propietarios y de código abierto para respaldar de manera más fiable las aplicaciones downstream multimodales.
Modelos de Lenguaje Amplios Multimodales Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44