北京智源人工智能研究院和中国电信人工智能研究院(TeleAI)联合研发的Tele-FLM系列大模型最近进行了升级,发布了52B指令模型FLM-2-52B-Instruct和全球首个万亿单体稠密模型Tele-FLM-1T,并将相关技术报告和模型的checkpoint开源。

FLM-2-52B-Instruct是基于Tele-FLM-52B基座模型进行指令微调获得的指令对话模型,专注于提升中文对话能力。通过监督微调,使用100万条开源指令数据进行训练,最终基于3万条数据的子集获得了最优结果。这些数据包括数学题目、代码和多轮对话数据。模型训练采用了特定的batch size、学习率和epoch设置,并在AlignBench评测平台上进行了评测。结果显示,FLM-2-52B-Instruct在中文对话能力上达到了GPT-4的90%。

Tele-FLM-1T是全球首个开源的万亿参数稠密模型,采用生长式预训练以节省成本。模型结构在GPT系列的decoder-only Transformers基础上进行了改进,包括加入Input和Output乘子、旋转位置编码、RMSNorm和SwiGLU等。生长策略包括横向生长和纵向生长,使用了基于MSG改进的保值算子。预训练过程中采用了特定的超参数设置。

FLM-2-52B-Instruct模型开源链接:

https://huggingface.co/CofeAI/FLM-2-52B-Instruct-2407

Tele-FLM-1T模型开源链接:

https://huggingface.co/CofeAI/Tele-FLM-1T

52B +1T技术报告链接:

https://arxiv.org/abs/2407.02783

52B基座模型技术报告链接:

https://arxiv.org/abs/2404.16645