SpacTor-T5
预训练T5模型,采用段落破坏和替换标记检测
普通产品编程NLP预训练模型
SpacTor是一种新的训练程序,包括(1)结合了段落破坏(SC)和标记替换检测(RTD)的混合目标,以及(2)一个两阶段课程,该课程在初始tau次迭代中优化混合目标,然后过渡到标准的SC损失。我们在多种NLP任务上进行了实验,使用编码器-解码器架构(T5),SpacTor-T5在下游性能方面与标准的SC预训练相当,同时减少了50%的预训练迭代次数和40%的总FLOPs。另外,在相同的计算预算下,我们发现SpacTor能够显著提高下游基准性能。
SpacTor-T5 最新流量情况
月总访问量
19075321
跳出率
45.07%
平均页面访问数
5.5
平均访问时长
00:05:32