谷歌发布时间感知框架 MUSCATEL 提升图像识别准确率

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
近日,苹果公司在其官方网站上更新了一项声明,披露了其如何收集和 “Look Around” 功能的图像,这一功能类似于谷歌地图的街景服务。根据最新的公告,自2025年3月起,苹果将开始利用在 “Look Around” 调查中收集的图像和数据来训练其产品和服务中使用的人工智能模型。这些模型包括与图像识别、创作及增强相关的技术。苹果通过配备有摄像头、传感器及其他设备的车辆和背包(用于行人专用区域)来收集图像和三维数据,以提高和完善 Apple Maps(苹果地图)的功能。在公司致力于保护用
人工智能在图像识别领域那是卷得飞起,分类猫猫狗狗早就Out啦,现在流行的是“连连看”Plus版,比如一眼认出这是哪一年的哪个型号的跑车,或者这只鸟的眉毛是不是比隔壁老王的粗那么一丢丢。可问题来了,神经网络它“聪明”是聪明,但让它说清楚“我凭啥说这是这个?”的时候,就有点像学渣被问解题思路,支支吾吾半天憋不出个所以然。传统的Class Activation Map(CAM)就像是给神经网络脑袋上戴了个发光圈,告诉你“嗯,它主要看这块儿了”,但具体看啥?为啥看这儿?遇到“双胞胎
随着人工智能技术的迅猛发展,AI 生成的文本、图像和视频在各个领域的应用日益成熟。然而,这也伴随着信任危机的出现,虚假信息的传播对社会造成了潜在的威胁。为了应对这一挑战,腾讯于近日推出了一款全新的 AI 生成内容检测工具,旨在通过 AI 技术 “打假 AI”。这款工具由腾讯的朱雀实验室研发,分为 AI 生成文本检测和 AI 生成图像检测两个系统。腾讯官方指出,尽管 AI 生成的图像在外观上愈加真实,但仍然存在一定的可识别性。通过对上传图像进行几秒钟的快速验证,用户可
最近,西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧,但该模型在各项基准测试中表现出色,备受关注。作为一个开源模型,moondream2有望在智能手机上实现本地图像识别功能。moondream2于三月正式发布,该模型能够处理文本和图像输入,具备回答问题、文本提取(OCR)、物体计数和物品分类等能力。自发布以来,Moondream 团队持续更新该模型,不断提升其基准性能。7月份的版本在 OCR 和文档理解方面显示出显著进步,尤其是在对历史经济数据的分析
最近瑞士联邦理工学院(ETH Zurich)的研究团队发表了一项让人震惊的研究成果,他们竟然成功破解了 Google 的 reCAPTCHAv2系统,并且成功率达到了100%!这项研究引发了关于图像验证码未来的广泛讨论。研究团队使用了一种名为 YOLO 的高级图像识别算法,通过对图片进行分割和分类,他们的系统能够自动解决 reCAPTCHAv2中的所有三种任务。这包括在3x3的网格中对图像进行分类、对单一图像进行分割,以及处理那些会变化的动态分类任务。为此,他们还准备了一个包含大约14,000个标注图像的数据集
Object Cutter是一款利用文字指令与图像识别技术结合的智能图像处理工具,旨在简化抠图过程。用户只需通过文字描述或框选操作指定需要保留的图像元素,系统即可自动识别并提取目标对象,同时去除背景内容。其核心亮点在于能精确处理复杂场景,如多物体环境中的单一对象抠图,且无需用户具备专业的图像编辑技能。该工具通过在线平台提供服务,支持用户上传图片并根据文本指令或框选轻松实现抠图,简化了传统抠图流程,提升图像处理的智能性和效率。
B站UP主“极客湾”自制的“白日梦”机器人迅速走红,仅四天播放量突破113万。这台机器人能自动完成作业,包括翻页、框题、做题和写字,涵盖多种学科。研发过程中,团队从改造写字机到自主研发,采用CoreXY结构和集成AI模型,显著提升了作业完成的准确性和效率。测试结果显示,英语作业准确率较高但有格式问题;语文作业文字书写有特点,部分题目有误;数学作业存在格式和逻辑理解问题。尽管不完美,但“白日梦”能够处理多种学科作业,展现B站DIY项目的创新和实力。
Meta AI发布新一代实时对象分割模型SAM2,其核心优势在于快速精准的分割能力,不仅适用于静态图像和动态视频,还能实时追踪未在训练阶段出现的对象。SAM2采用统一架构,高效处理图像和视频分割任务,具备实时性能、实时互动特性、零样本泛化能力及强大可提示分割功能。创新的会话记忆模块确保目标对象即使暂时离开视野也能持续追踪。通过内存机制优化的一致性和准确性显著提升。为促进社区发展,SAM2开源代码、模型权重,并提供包含大量视频和时空掩码的SA-V数据集。其应用广泛,涵盖视频编辑、自动驾驶、医学研究、科学研究等多个领域,但同时也引发隐私保护和正确使用等重要议题。
英国萨里大学和斯坦福大学的研究团队开发了一种新方法,教会人工智能(AI)理解人类线描草图,即使是非艺术家绘制的。该模型在识别场景草图方面接近人类水平的表现。
["T-Rex2利用文本提示和图片标记结合,能准确识别和定位图片中的各种对象。","应用广泛,可在图片或视频中精准找到特定对象,提高识别效率。","T-Rex2支持多种工作流,适用于不同场景的对象识别和定位需求。","强大工具,无需预先训练,能精准识别各种目标对象,提高准确性。","深度数据空间推出的T-Rex2技术解决传统目标检测模型的封闭集问题。"]