智源研究院发布了全球最大的中英文语义向量模型训练数据集 MTP,数据规模达 3 亿对。该数据集包含来自不同来源的中英文文本对,为训练中英文语义向量模型提供了重要基础。智源研究院表示,数据对大模型训练起着至关重要的作用,并将推动人工智能协同创新。该数据集的发布有望解决中文模型训练数据集缺乏的问题。