智源研究院开源 10 亿参数三维视觉通用模型 Uni3D

站长之家
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
智源研究院与腾讯集团于2024年12月18日签署了战略合作协议,双方将在大模型研发、人工智能技术前沿探索及开源生态建设等多个领域进行深入合作。根据合作协议,智源研究院与腾讯将利用各自的优势,推动大模型技术与产业场景的深度融合,并探索在多元算力环境下的大模型训练与推理优化技术解决方案。双方还将致力于构建一个开放创新的软硬件生态体系,以促进技术的发展和应用。
智源研究院正式发布了他们的新一代多模态世界模型 Emu3,该模型的最大亮点在于,它仅依靠下一个 token 的预测能力,就能在文本、图像和视频这三种不同模态中进行理解和生成。在图像生成方面,Emu3能够根据视觉 token 预测生成高质量的图像。这意味着用户可以期待灵活的分辨率和多样的风格。而在视频生成方面,Emu3则是以一种全新的方式工作,不同于其他模型通过噪声生成视频,Emu3通过顺序预测直接生成视频。这种技术的进步使得视频生成变得更加流畅自然。在图像生成、视频生成和
北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
在2024北京文化论坛上,北京智源人工智能研究院(BAAI)宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet),进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ,是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。
北京百度网讯科技有限公司与北京智源人工智能研究院今日宣布正式签署战略合作协议,双方将在大模型等领域展开深度合作,共同构建人工智能产研协同生态。百度自2010年起开始全面布局人工智能,是全球为数不多的进行全栈布局的人工智能公司,从昆仑芯、飞桨深度学习平台、文心大模型到应用
2024年9月4日,北京智源人工智能研究院(BAAI)宣布推出全球首个包含文生视频的模型对战评测服务——FlagEval大模型角斗场。这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。F
智源研究院最近发布了三款新的向量模型,这些模型在向量检索任务中表现出色,并刷新了多个评测基准的最佳水平。这三款模型分别是:BGE-EN-ICL:一个英文向量模型,通过引入任务相关的查询-文档示例作为少量示例,增强了模型的语义表达能力。
北京智源人工智能研究院与中国电信人工智能研究院合作,推出Tele-FLM系列大模型升级版,包括52B指令模型FLM-2-52B-Instruct与万亿参数模型Tele-FLM-1T。FLM-2-52B-Instruct通过指令微调,专注于提升中文对话能力,达到GPT-4水平的90%,基于Tele-FLM-52B基座模型,使用特定数据集和参数优化。Tele-FLM-1T作为全球首个万亿参数稠密模型,采用生长式预训练策略,优化结构与参数设置,包括加入特定组件与改进预训练策略,显著提升模型效率与效果。所有模型与技术报告均已开源,提供给学术界与产业界进行研究与应用。
近期,多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型,国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉编码器来提取视觉特征并与大语言模型结合,但存在训练分离导致的视觉归纳偏置问题,限制了多模态大模型的部署效率和性能。
["DL3DV-10K是一个大规模的多视图场景数据集,专注于解决神经视图合成中的挑战。","研究团队使用DL3DV-10K评估了NeRF变体和3D高斯斑点等现有方法,并提出DL3DV-140作为性能基准。","研究结果表明,通过使用DL3DV-10K预训练IBRNet,可以显著提高当前先进方法的性能。","DL3DV-140评估揭示了各种方法在真实场景中的优势和劣势,Zip-NeRF表现出色。","研究强调大规模真实场景数据集在推动学习型通用NeRF方法发展中的重要性。"]