zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2025-01-20 14:04:10
.
AIbase
.
14.8k
MIT、 DeepMind研究揭示视觉语言模型无法理解否定表达的原因
在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。否定在许多应用中至关重要,例如区分 “没有窗户的房间” 和 “有窗户的房间”。尽管 VLMs 取得了显著进展,但在处理否定陈述时,现有模型的表现却大幅下降。这种限制尤其在安全监控和医疗保健等高风险领域中显得尤为重要。现有的 VLMs,如 CLIP,采用共
2025-01-10 14:38:31
.
AIbase
.
14.6k
商汤科技发布 “日日新” 融合大模型,与DeepSeek V3不相上下
商汤科技正式推出了 “日日新” 融合大模型。这款模型在多模态信息处理能力和深度推理能力上实现了显著提升,并在两大权威评测榜单中获得了第一名。根据国内权威测评机构 SuperCLUE 发布的《中文大模型基准测评2024年度报告》,商汤的 “日日新” 融合大模型以68.3的高分与 DeepSeek V3并列国内榜首。此外,在 OpenCompass 的多模态评测中,该模型同样位列第一,分数显著超越了 GPT-4o。商汤的 “日日新” 融合大模型标志着在原生融合模态训练领域的实质性突破。这意味着该模型能够实现文
2024-08-19 14:44:01
.
AIbase
.
11.1k
阿里推多模态大模型mPLUG-Owl3 4秒看完2小时电影
阿里团队最新发布的mPLUG-Owl3是一个通用多模态大模型,其核心能力是对长图像序列的理解。通过引入超注意力模块,mPLUG-Owl3能够高效处理视觉和语言信息,实现对图片、视频等多模态数据的深入理解和交流。该模型在推理效率、图像处理能力、以及多模态知识应用上均取得了显著突破,尤其是在视频理解领域,能够在4秒内“看”完一部2小时的电影,并准确回答与之相关的问题。mPLUG-Owl3采用了轻量化的Hyper Attention模块,优化了模型训练和推理效率,使其在多个多模态基准测试中达到或超越了当前最优水平。这一技术的发布不仅标志着多模态大模型领域的重要进展,也为未来在图像、视频处理及人机交互领域提供了新的可能性。