最近,西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧,但该模型在各项基准测试中表现出色,备受关注。作为一个开源模型,moondream2有望在智能手机上实现本地图像识别功能。moondream2于三月正式发布,该模型能够处理文本和图像输入,具备回答问题、文本提取(OCR)、物体计数和物品分类等能力。自发布以来,Moondream 团队持续更新该模型,不断提升其基准性能。7月份的版本在 OCR 和文档理解方面显示出显著进步,尤其是在对历史经济数据的分析
最近瑞士联邦理工学院(ETH Zurich)的研究团队发表了一项让人震惊的研究成果,他们竟然成功破解了 Google 的 reCAPTCHAv2系统,并且成功率达到了100%!这项研究引发了关于图像验证码未来的广泛讨论。研究团队使用了一种名为 YOLO 的高级图像识别算法,通过对图片进行分割和分类,他们的系统能够自动解决 reCAPTCHAv2中的所有三种任务。这包括在3x3的网格中对图像进行分类、对单一图像进行分割,以及处理那些会变化的动态分类任务。为此,他们还准备了一个包含大约14,000个标注图像的数据集
在人类大脑复杂的神经网络中,数十亿个神经元不断产生电活动,编码着我们的每一个想法、动作和感觉。这种神经交响乐的复杂性长期以来一直是脑机接口(BCI)研究的一大挑战。然而,南加州大学(USC)的研究人员最近取得了重大突破,开发出一种名为DPAD(分离优先动态分析)的新型人工智能算法,有望彻底改变我们解读大脑活动的方式。图源备注:图片由AI生成,图片授权服务商MidjourneyDPAD算法的核心创新DPAD算法的核心在于其独特的训练策略。该算法首先识别与特定行为相关的大脑模式,
B站UP主“极客湾”自制的“白日梦”机器人迅速走红,仅四天播放量突破113万。这台机器人能自动完成作业,包括翻页、框题、做题和写字,涵盖多种学科。研发过程中,团队从改造写字机到自主研发,采用CoreXY结构和集成AI模型,显著提升了作业完成的准确性和效率。测试结果显示,英语作业准确率较高但有格式问题;语文作业文字书写有特点,部分题目有误;数学作业存在格式和逻辑理解问题。尽管不完美,但“白日梦”能够处理多种学科作业,展现B站DIY项目的创新和实力。