AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2025-01-20 14:04:10.AIbase

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

在多模态任务中，视觉语言模型（VLMs）起着至关重要的作用，如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐，以实现更高效的信息处理。然而，目前的 VLMs 在理解否定方面仍面临重大挑战。否定在许多应用中至关重要，例如区分 “没有窗户的房间” 和 “有窗户的房间”。尽管 VLMs 取得了显著进展，但在处理否定陈述时，现有模型的表现却大幅下降。这种限制尤其在安全监控和医疗保健等高风险领域中显得尤为重要。现有的 VLMs，如 CLIP，采用共

MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因

2025-01-10 14:38:31.AIbase

商汤科技发布 “日日新” 融合大模型，与DeepSeek V3不相上下

商汤科技正式推出了 “日日新” 融合大模型。这款模型在多模态信息处理能力和深度推理能力上实现了显著提升，并在两大权威评测榜单中获得了第一名。根据国内权威测评机构 SuperCLUE 发布的《中文大模型基准测评2024年度报告》，商汤的 “日日新” 融合大模型以68.3的高分与 DeepSeek V3并列国内榜首。此外，在 OpenCompass 的多模态评测中，该模型同样位列第一，分数显著超越了 GPT-4o。商汤的 “日日新” 融合大模型标志着在原生融合模态训练领域的实质性突破。这意味着该模型能够实现文

商汤科技发布 “日日新” 融合大模型，与DeepSeek V3不相上下

2024-08-19 14:44:01.AIbase

阿里推多模态大模型mPLUG-Owl3 4秒看完2小时电影

阿里团队最新发布的mPLUG-Owl3是一个通用多模态大模型，其核心能力是对长图像序列的理解。通过引入超注意力模块，mPLUG-Owl3能够高效处理视觉和语言信息，实现对图片、视频等多模态数据的深入理解和交流。该模型在推理效率、图像处理能力、以及多模态知识应用上均取得了显著突破，尤其是在视频理解领域，能够在4秒内“看”完一部2小时的电影，并准确回答与之相关的问题。mPLUG-Owl3采用了轻量化的Hyper Attention模块，优化了模型训练和推理效率，使其在多个多模态基准测试中达到或超越了当前最优水平。这一技术的发布不仅标志着多模态大模型领域的重要进展，也为未来在图像、视频处理及人机交互领域提供了新的可能性。

阿里推多模态大模型mPLUG-Owl3 4秒看完2小时电影