智源开源无标注视频学习3D生成模型See3D

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月10号 15:15

197

北京智源人工智能研究院（BAAI）近日宣布推出一款创新的3D生成模型See3D，该模型能够利用大规模无标注的互联网视频进行学习。这一技术突破标志着向“See Video， Get3D”的理念迈进了重要一步。See3D模型不依赖于传统的相机参数，而是采用视觉条件技术，仅通过视频中的视觉线索生成相机方向可控且几何一致的多视角图像。这种方法避免了昂贵的3D或相机标注的需求，能够高效地从互联网视频中学习3D先验。

See3D模型支持从文本、单视图和稀疏视图到3D的生成，并能够进行3D编辑与高斯渲染。该模型、代码和Demo已经开源，供更多的技术细节参考。See3D的效果展示包括解锁3D互动世界、基于稀疏图片的3D重建、开放世界3D生成和基于单视图的3D生成。这些功能使得See3D在多种3D创作应用中展现出广泛的适用性。

微信截图_20241210151417.png

研究动机源于3D数据的局限性，传统的3D数据采集过程耗时且成本高昂，而视频则因其包含多视角关联性和相机运动信息，成为揭示3D结构的有力工具。See3D提出的解决方案包括数据集构建、模型训练和3D生成框架。团队自动筛选视频数据，构建了涵盖1600万视频片段、3.2亿帧图像的WebVi3D数据集。See3D模型通过向掩码视频数据添加时间依赖噪声，生成纯粹的2D视觉信号，支持可扩展的多视图扩散模型训练，实现了无需相机条件的3D生成。

See3D的优势在于数据扩展性、相机可控性和几何一致性。其训练数据源自海量互联网视频，构建的多视图数据集在规模上实现了数量级的提升。模型支持在任意复杂的相机轨迹下的场景生成，并保持前后帧视图的几何一致性。

通过扩大数据集规模，See3D为3D生成技术的发展提供了新的思路，希望这项工作能够促进3D研究社区对大规模无相机标注数据的关注，降低3D数据采集的成本，并缩小与现有闭源3D解决方案之间的差距。

项目地址: https://vision.baai.ac.cn/see3d

Meta AI 发布新型视频学习模型V-JEPA ：视频理解新突破

近日，Meta AI 团队推出了视频联合嵌入预测架构（V-JEPA）模型，这一创新举措旨在推动机器智能的发展。人类能够自然而然地处理来自视觉信号的信息，进而识别周围的物体和运动模式。机器学习的一个重要目标是揭示促使人类进行无监督学习的基本原理。研究人员提出了一个关键假设 —— 预测特征原则，认为连续感官输入的表示应该能够相互预测。早期的研究方法通过慢特征分析和谱技术来保持时间一致性，防止表示崩溃。而现在的许多新方法则结合了对比学习和掩蔽建模，确保表示能

斯坦福新AI框架 OctoTools：无需训练，让AI实现高效复杂推理！

在人工智能（AI）领域，尽管大型语言模型(LLMs)在处理自然语言方面表现出色，但它们在面对复杂推理任务时常常显得力不从心。这些任务通常需要多步骤的推理、领域特定的知识，或者外部工具的有效集成。为了克服这些限制，研究人员们一直在探索如何通过外部工具的使用来提升 LLM 的能力。传统的增强方法往往需要对模型进行微调或额外训练，导致其在任务适应性和灵活性上受到限制。现有的框架通常依赖于静态的、预定义的工具集，缺乏高效的工具选择和规划机制，从而在执行任务

美国人工智能安全研究所面临大规模裁员危机

据多家媒体报道，美国国家标准与技术研究所（NIST）计划裁减多达500名员工，这一决定进一步威胁到刚刚起步的美国人工智能安全研究所(AISI)。Axios 的报道称，AISI 和 “美国芯片计划” 将面临针对试用期员工的 “重大” 裁员，这些员工通常是在职一至两年的新员工。Bloomberg 则表示，部分员工已经收到了即将被解雇的口头通知。在最新裁员消息之前，AISI 的未来已经充满不确定性。该研究所成立于去年，旨在研究人工智能开发中的风险并制定相应标准，其成立是依据时任总统乔・拜登关于

五角大楼高官透露：将投资于 “自主杀手机器人”

在一次令人震惊的声明中，一位高级国防官员向《Defense One》透露，五角大楼对自主杀手机器人的兴趣正在加速增长。该官员在匿名的情况下表示，五角大楼正计划减少对人工智能研究的资金投入，转而投资于实际的 AI 武器系统。他指出:“我们不会再投资于‘人工智能’，因为我不知道那意味着什么。我们将投资于自主杀手机器人。”这位官员补充说，目前的政府更加关注武器系统和商业系统，而不是所谓的 “技术”。另有一位官员提到，五角大楼将把一些研发费用转移到私营部门。这

AI新闻资讯