日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。
日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。
近日,在中关村论坛系列活动第12届数字金融与科技金融大会上,蚂蚁数科的 Deepfake 检测方案入选大会“金融科技技术创新与应用案例”。蚂蚁数科依托旗下天玑实验室,业界首次构建了大规模、高质量、多模态的 Deepfake 数据集,其合成超过百万级多媒体内容,充分地模拟了真实世界金融风控环境中的Deepfake攻击样本,成为评测现有金融领域Deepfake检测模型性能的重要标准。在金融业务场景中,蚂蚁数科多组测试数据集上的 Deepfake 检测准确率达到了98%以上,并成功阻止了多起利用Deepfake技
哈佛大学近日宣布,计划发布一个由近100万本公共领域书籍组成的数据集,任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。此项目由哈佛大学新成立的机构数据计划(Institutional Data Initiative)主导,并在微软与OpenAI的资助下完成。该数据集包括来自谷歌Books项目的扫描书籍,涵盖了莎士比亚、狄更斯、但丁等经典作品,以及一些晦涩的捷克数学教科书和威尔士词典等内容。图源备注:图片由AI生成,图片授权服务商Midjourney这一数据集被称为“Books3数据集”的五倍大,旨
哈佛大学周四宣布,将公开一份包含近百万本公共领域图书的高质量数据集,任何人都可以利用它来训练大型语言模型和其他 AI 工具。 这份数据集由哈佛大学新成立的机构数据倡议 (Institutional Data Initiative) 创建,并获得了微软和 OpenAI 的资金支持。 其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。该数据集规模约为用于训练 Meta Llama 等 AI 模型的臭名昭著的 Books3数据集的五倍。 它涵盖了各种类型、年代和语言,既有莎士比亚、查尔斯·狄更斯和但丁的经典之作,也有
《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据,令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件,两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而,11月14日,一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功,但由于文件夹结构和文件名已"无法挽回"地丢失,恢复的数据实际