NASA 的跨机构实施和先进概念团队(IMPACT)通过与私营、非联邦合作伙伴签署太空法案协议,共同开发 INDUS,这是一套面向地球科学、生物和物理科学、日球物理学、行星科学以及天体物理学等领域的大型语言模型(LLM),并使用来自多样化数据源的策划科学文献进行训练。
INDUS 包含两种类型的模型:编码器和句子转换器。编码器将自然语言文本转换为数字编码,可以由 LLM 处理。INDUS 编码器在包含天体物理学、行星科学、地球科学、日球物理学、生物科学和物理科学数据的60亿令牌语料库上进行了训练。IMPACT-IBM 合作团队开发的自定义分词器通过识别生物标志物和磷酸化等科学术语,改进了通用分词器。INDUS 中超过一半的5万个词汇是针对其培训所使用的特定科学领域而独有的。INDUS 编码器模型被用于对约2.68亿个文本对进行微调,其中包括标题 / 摘要和问题 / 答案。
通过为 INDUS 提供领域特定的词汇,IMPACT-IBM 团队在生物医学任务基准测试、科学问答基准测试和地球科学实体识别测试上,实现了比开放、非领域特定 LLM 更出色的表现。通过设计多样化的语言任务和检索增强生成,INDUS 能够处理研究人员的问题、检索相关文档并生成答案。对于延迟敏感的应用,该团队开发了更小、更快的编码器和句子转换器模型版本。
验证测试表明,INDUS 在回答 NASA 约400个问题的测试集时,能够从科学文献中检索出相关段落。IBM 研究员 Bishwaranjan Bhattacharjee 评论了整体方法,“我们通过不仅拥有自定义词汇,还拥有大量专门的训练编码器模型和良好的训练策略来实现了卓越的表现。对于更小、更快的版本,我们使用神经架构搜索来获取模型架构,并使用更大的模型监督进行知识蒸馏进行训练。”
划重点:
- 🚀NASA 与 IBM 合作开发 INDUS 大型语言模型,适用于地球科学、生物和物理科学、日球物理学、行星科学和天体物理学等领域。
- 🎓INDUS 包含编码器和句子转换器两种类型的模型,使用自定义分词器和60亿令牌语料库进行训练,并在约2.68亿个文本对上进行微调。
- 💡INDUS 通过领域特定的词汇和设计多样化的语言任务和检索增强生成,实现了比开放、非领域特定 LLM 更出色的表现,能够处理研究人员的问题、检索相关文档并生成答案。