日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。
日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。视觉语言模型(VLMs)依赖于大量数据集来学习如何连接图像与文本,从而执行如图像字幕生成和视觉问答等任务。过去,这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集,虽然这
Meta 正面临一起涉及版权侵权的诉讼,原告律师称,Meta 首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其 Llama AI 模型。该案件是针对多家科技巨头的众多版权诉讼之一,这些公司被指控在未获授权的情况下使用受版权保护的作品进行 AI 模型训练。在周三晚间提交给美国加利福尼亚北区地方法院的文件中,原告重申了 Meta 去年年底的证词,证词中透露扎克伯格批准使用名为 LibGen 的数据集来进行与 Llama 相关的训练。LibGen 被视为一个“链接聚合器”,提供大量受版
近日,国家发展改革委、国家数据局和工业和信息化部联合发布了《国家数据基础设施建设指引》。该指引旨在推进全国各地积极建设政务服务大模型,促进政务服务的智能化进程,进而提升政府服务的效率与质量。指引中强调了数据标注产业的重要性,鼓励各地区在数据标注的生态构建、能力提升及场景应用方面进行探索与创新。政府将链接公共数据,主动公开企业及个人数据,同时建立高质量的数据资源开放目录,以此为社会提供统一的数据资源,促进信息共享。为了确保数据的准确
近日,上海机器人初创公司智元机器人联合上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,正式开源百万真机数据集AgiBot World,旨在支持泛化和通用的机器人大模型训练。据悉,这是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。AgiBot World数据集诞生于智元自建的大规模数据采集工厂与应用实验基地,空间总面积超过4000平方米,包含3000多种真实物品,复刻了家居、餐饮、工业、商超和办公五大核心场景,收录了80多种日常生活中的