谷歌的研究人员近日推出了一项全新的模型,名为 TransNAR,将 Transformer 和神经算法推理(NAR)相结合,实现了在算法任务上的优异表现。
传统的 Transformer 在算法推理方面存在缺陷,而 NAR 在处理结构化数据上表现出色,具有强大的泛化能力。通过跨注意力机制,TransNAR 将 Transformer 和 NAR 深度融合,使得模型能够同时处理文本形式的算法问题描述和图表示,实现了更优越的算法推理能力。
TransNAR 的训练策略也十分独特,采用多层级训练方法。在预训练阶段,NAR 独立训练,通过执行多种算法任务来学习内在逻辑和计算步骤。而在微调阶段,TransNAR 接受文本描述和图表示的双重输入,利用预训练的 NAR 提供的节点嵌入信息,通过跨注意力机制来调节自身标记嵌入。
这一过程使得 TransNAR 在算法任务上的表现远超基线 Transformer 模型,尤其在分布外的泛化能力上有着显著优势,TransNAR展现出了超过20%的优化改进。
划重点:
⭐ 谷歌推出 TransNAR 模型,将 Transformer 与 NAR 相结合,提升算法推理能力
⭐ TransNAR 采用跨注意力机制,深度融合 Transformer 和 NAR,在文本和图表示上表现优异
⭐ 多层级训练策略使 TransNAR 在算法任务上明显优于基线 Transformer,尤其在泛化能力方面表现出色