Multi-modal Large Language Models

提供全面的MLLMs评估

普通产品生产力MLLMs评估工具
该工具旨在通过对最新专有和开源MLLMs进行定性研究,从文本、代码、图像和视频四个模态的角度,评估其泛化能力、可信度和因果推理能力,以提高MLLMs的透明度。我们相信这些属性是定义MLLMs可靠性的几个代表性因素,支持各种下游应用。具体而言,我们评估了闭源的GPT-4和Gemini以及6个开源LLMs和MLLMs。总体上,我们评估了230个手动设计的案例,定性结果总结为12个分数(即4个模态乘以3个属性)。总共,我们揭示了14个实证发现,有助于了解专有和开源MLLMs的能力和局限性,以更可靠地支持多模态下游应用。
打开网站

Multi-modal Large Language Models 最新流量情况

月总访问量

19075321

跳出率

45.07%

平均页面访问数

5.5

平均访问时长

00:05:32

Multi-modal Large Language Models 访问量趋势

Multi-modal Large Language Models 访问地理位置分布

Multi-modal Large Language Models 流量来源

Multi-modal Large Language Models 替代品