中科院发布我国首个开放生物医学影像档案库OBIA

HyperAI超神经公众号

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月10号 14:25

日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。视觉语言模型（VLMs）依赖于大量数据集来学习如何连接图像与文本，从而执行如图像字幕生成和视觉问答等任务。过去，这些模型主要依赖于 Conceptual Captions 和 LAION 等大型数据集，虽然这

Meta 涉嫌版权侵权:使用 LibGen 数据集训练 AI 并删除版权信息

Meta 正面临一起涉及版权侵权的诉讼，原告律师称，Meta 首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其 Llama AI 模型。该案件是针对多家科技巨头的众多版权诉讼之一，这些公司被指控在未获授权的情况下使用受版权保护的作品进行 AI 模型训练。在周三晚间提交给美国加利福尼亚北区地方法院的文件中，原告重申了 Meta 去年年底的证词，证词中透露扎克伯格批准使用名为 LibGen 的数据集来进行与 Llama 相关的训练。LibGen 被视为一个“链接聚合器”，提供大量受版

三部门：推进全国各地积极建设政务服务大模型，助力数字经济发展

近日，国家发展改革委、国家数据局和工业和信息化部联合发布了《国家数据基础设施建设指引》。该指引旨在推进全国各地积极建设政务服务大模型，促进政务服务的智能化进程，进而提升政府服务的效率与质量。指引中强调了数据标注产业的重要性，鼓励各地区在数据标注的生态构建、能力提升及场景应用方面进行探索与创新。政府将链接公共数据，主动公开企业及个人数据，同时建立高质量的数据资源开放目录，以此为社会提供统一的数据资源，促进信息共享。为了确保数据的准确

智元机器人开源全球首个百万真机数据集AgiBot World

近日，上海机器人初创公司智元机器人联合上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，正式开源百万真机数据集AgiBot World，旨在支持泛化和通用的机器人大模型训练。据悉，这是全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集。AgiBot World数据集诞生于智元自建的大规模数据采集工厂与应用实验基地，空间总面积超过4000平方米，包含3000多种真实物品，复刻了家居、餐饮、工业、商超和办公五大核心场景，收录了80多种日常生活中的