日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。
日前,中科院基因组所建立的开放生物医学成像档案库OBIA对外开放,这是我国首个开放的生物医学成像和相关临床数据存储库。OBIA已收录来自301医院的937例患者、193万张医学影像,涵盖9种模态、30个解剖部位。OBIA实现了影像数据的去标识化、管理和质量控制,为用户提供浏览、检索和下载服务。OBIA的建立填补了国内生物医学影像数据开放共享的空白,有助于克服数据孤岛问题,推动基于医学影像的人工智能技术研发和应用。
《纽约时报》和《每日新闻》在版权诉讼中遭遇意外转折:OpenAI一名工程师不经意间删除了可能成为关键证据的虚拟机搜索数据,令这起备受关注的法律纠纷再添戏剧性情节。根据周三晚间提交至纽约南区美国地方法院的信件,两家媒体公司的律师和技术专家此前已投入逾150小时搜索OpenAI的AI训练数据集。然而,11月14日,一名OpenAI工程师意外删除了存储在虚拟机上的全部搜索数据。尽管OpenAI随后尝试恢复数据并取得基本成功,但由于文件夹结构和文件名已"无法挽回"地丢失,恢复的数据实际
近日,来自多家中国科研机构的研究团队重磅发布了名为Infinity-MM的超大规模多模态数据集,并基于该数据集训练出了一个性能卓越的AI模型Aquila-VL-2B。这一突破为多模态AI发展注入了新动力。Infinity-MM数据集规模惊人,共包含四大类数据:1000万条图像描述、2440万条通用视觉指令数据、600万条精选高质量指令数据,以及300万条由GPT-4等AI模型生成的数据。研究团队采用开源AI模型RAM++进行图像分析和信息提取,并通过独特的六大类分类系统确保生成数据的质量和多样性。图源备注:图片由AI生成
近日,来自多家中国机构的研究团队成功创建了 “Infinity-MM” 数据集,这是目前最大规模的公开多模态 AI 数据集之一,同时训练出了一款性能卓越的小型新模型 ——Aquila-VL-2B。该数据集主要包含四大类数据:1000万条图像描述、2440万条一般视觉指令数据、600万条精选高质量指令数据,以及300万条由 GPT-4和其他 AI 模型生成的数据。在生成方面,研究团队利用现有的开源 AI 模型。首先,RAM++ 模型分析图像并提取重要信息,随后生成相关问题和答案。此外,团队还构建了一种特殊的分类系统,
一项由以色列理工学院主导的最新研究表明,大型语言模型(LLM)可能“深藏不露”,掌握的知识比实际表现出来的更多。研究人员发现,LLM 的内部表征编码了关于其输出正确性的信息,即使它们最终生成了错误的答案,也能在内部识别出正确答案。该研究团队重点分析了 LLM 在长文本生成中的错误,这更贴近其在现实世界中的应用场景。他们构建了一个错误检测数据集,通过比较模型生成的答案与真实答案来判断其正确性,并以此为基础,研究 LLM 内部表征中编码真实性信号的位置。研