医学多模态数据集MedTrinity-25M：包含2500万张医学影像

来自 UCSC-VLAA 团队的 “MedTrinity-25M” 大规模多模态数据集正式发布。这个数据集包含2500万张医学影像及详细注释。在医学领域中可谓是一次重要的创新，它拥有多粒度的注释，可以帮助研究人员更好地理解和应用医疗数据，用于训练医疗多模态大模型。

MedTrinity-25M 的构建过程相当复杂，团队经过精心的数据处理，提取了从各类数据中获得的关键信息，整合了元数据，生成了粗略的标题，定位了感兴趣的区域，还收集了相关的医学知识。更有意思的是，他们利用这些信息，利用大规模语言模型（MLLM）生成了细致的描述。这种方法不仅提高了数据的可用性，也为医学研究开辟了新的方向。

说到发布进程，值得一提的是，MedTrinity-25M 的 Demo 数据集早在2024年6月就已经上线了，而完整数据集则是在7月21日正式对外发布，最近在8月7日，他们还发布了相关的论文。

除了数据集本身，团队还提供了一系列预训练的模型，像是 LLaVA-Med++，这些模型在多个医学任务中表现出色。研究者们能够利用这些工具，更好地完成他们的项目，让医学研究效率大大提升。

MedTrinity-25M 为医学界提供了一个宝贵的资源，希望大家能够充分利用这个数据集，推动医学研究的发展。

项目入口：https://top.aibase.com/tool/medtrinity-25m

AI新闻资讯

医学多模态数据集MedTrinity-25M：包含2500万张医学影像

AIbase基地