别再用“框框”糊弄AI了！SegVG框架开源，像素级细节助力精准定位

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月5号 14:52

146

在AI视觉领域，目标定位一直是个老大难问题。传统的算法就像个“近视眼”，只能粗略地用“框框”圈出目标，却看不清里面的细节。这就好比你跟朋友描述一个人，只说了个大概身高体型，朋友能找到人才怪!

为了解决这个问题，一群来自伊利诺伊理工大学、思科研究院和中佛罗里达大学的大佬们，开发了一套名为SegVG的全新视觉定位框架，号称要让AI从此告别“近视眼”!

SegVG的核心秘诀就是:“像素级”细节!传统的算法只用边界框信息训练AI，相当于只给AI看个模糊的影子。而SegVG则是把边界框信息转换成分割信号，相当于给AI戴上了“高清眼镜”，让AI能看清目标的每一个像素!

具体来说，SegVG采用了一种“多层多任务编码器-解码器”。这个名字听起来很复杂，其实你可以把它理解成一个超级精密的“显微镜”，里面包含用于回归的查询和多个用于分割的查询。简单来说，就是用不同的“镜头”分别进行边界框回归和分割任务，反复观察目标，提取更精细的信息。

更厉害的是，SegVG还引入了“三元对齐模块”，相当于给AI配备了“翻译器”，专门解决模型预训练参数和查询嵌入之间“语言不通”的问题。通过三元注意力机制，这个“翻译器”可以把查询、文本和视觉特征“翻译”到同一个频道，让AI更好地理解目标信息。

SegVG的效果到底如何呢?大佬们在五个常用的数据集上做了实验，结果发现SegVG的表现吊打了一众传统算法! 尤其是在RefCOCO+和RefCOCOg这两个出了名的“难题”数据集上，SegVG更是取得了突破性的成绩!

除了精准定位，SegVG还能输出模型预测的置信度得分。简单来说，就是AI会告诉你它对自己的判断有多大的把握。这在实际应用中非常重要，比如你想用AI来识别医学影像，如果AI的置信度不高，你就需要人工复核，避免误诊。

SegVG的开源，对于整个AI视觉领域来说都是一个重大利好! 相信未来会有越来越多的开发者和研究人员加入SegVG的阵营，共同推动AI视觉技术的发展。

论文地址：https://arxiv.org/pdf/2407.03200

代码链接:https://github.com/WeitaiKang/SegVG/tree/main

Realbotix发布机器人AI视觉系统，支持人脸识别与个性化互动

Realbotix 公司宣布推出其自主研发的 Realbotix 机器人 AI 视觉系统（ Realbotix Robotic AI Vision System）。这一创新的系统将为类人机器人设定新的真实感和适应性标准，旨在提升用户互动体验，并实现实时环境感知。Realbotix 机器人 AI 视觉系统具有多项关键功能，包括用户面部识别、物体识别、面部追踪和实时场景检测等。这些增强功能拓宽了机器人的应用场景，提升了其环境感知能力。图源备注:图片由AI生成，图片授权服务商Midjourney在与人类的互动方面，Realbotix AI 视觉系统能够检测到人类的存在

阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Claude3.5。阿里云官方介绍称，新的Qwen2.5-VL能够更准确地解析图像内容，并突破性地支持超过1小时的视频理解。该模型可以在视频中搜索具体事件，并对视频的不同时间段进行要点总结，从而快速、高效地帮助用户提取视频中的关键信息。此外，Qwen2.5-VL无需微调即可变身为一个能操控手机和电脑的AI视觉智能体（Visual Agents），实现多

美图AI短片工具MOKI会员功能上线：接入VIDU、可灵AI大模型

在AI视觉创作领域，MOKI短片工具近日宣布了其最新升级，引入了备受期待的会员功能，并接入了VIDU和可灵AI两大模型，进一步丰富了创作者的创作体验。此次更新不仅保留了原有的美图奇想大模型，还通过新增的VIDU和可灵AI大模型，为动画场景、运动效果和可控性提供了定制化的优化，以满足不同创作者的需求。

支付宝推出新一代AI视觉搜索产品“探一下”：用AI之眼探索万物

12月30日，支付宝推出新一代AI视觉搜索产品“探一下”，基于自研的多模态大模型技术，可“用AI之眼探索万物”，提供更快速、有用、趣味的生成式搜索服务。用户遇到感兴趣的事物，就能让AI通过摄像头，识别花草宠物和潮玩、做旅游的随身讲解、查询商品药品详情等，还能趣味解读萌宠照、宝宝照等，晒图不愁配文案。目前该产品已上线支付宝，在首页点击“扫一扫”后左划即可找到它，在支小宝App也能快速访问。2024年以来，支付宝接连发布“支小宝”等AI独立应用及智能体开发平台

AI新闻资讯