有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,
近日,一项新的研究论文揭示了不同 AI 语言模型在合作能力方面的显著差异。研究团队采用了一种经典的 “捐赠者游戏”,测试了 AI 代理在多代合作中如何共享资源。结果显示,Anthropic 的 Claude3.5Sonnet 表现出色,成功建立了稳定的合作模式,获得了更高的资源总量。而谷歌的 Gemini1.5Flash 和 OpenAI 的 GPT-4o 则表现不佳,尤其是 GPT-4o 在测试中逐渐变得不合作,Gemini 代理的合作程度也十分有限。研究团队进一步引入了惩罚机制,以观察不同 AI 模型的表现变化。结果发现,Claude3.5的表现有了显
Google DeepMind 和机器人公司 Apptronik 宣布达成合作,将结合双方技术专长,研发可在复杂动态环境中运行的人工智能人形机器人。此次合作旨在推动机器人硬件与人工智能的深度融合,探索机器人在工业与日常应用中的更广泛可能性。Apptronik 于2016年从德克萨斯大学奥斯汀分校的人本机器人实验室独立运营,迄今已开发出15种机器人模型,包括为 NASA 设计的 Valkyrie 机器人。公司最新推出的 Apollo 机器人,高1.73米、重73公斤,专为工业环境设计,可与人类协同工作。Google DeepMind 最近展示了 Apoll
在人工智能领域竞争日益激烈的背景下,谷歌近日宣布推出 Gemini2.0 Flash Thinking模型。这一多模态推理模型具备快速且透明的处理能力,能够应对复杂问题。谷歌首席执行官桑达尔・皮查伊在社交媒体 X 上表示:“这是我们迄今为止最具深度的模型。” 根据开发者文档,Gemini2的Flash Thinking比基础版本的 Gemini2.0Flash模型具备更强的推理能力。新模型支持32,000个输入标记(大约50到60页文本),输出响应可以达到8,000个标记。谷歌在其 AI 工作室的侧边面板中表示,这一模型特别适用于 “多模态