清华与微软联手打造Differential Transformer，让 AI 的注意力更集中，精度飙升30%！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Oct 10, 2024

378

最近大语言模型（LLM）发展迅猛，其中Transformer模型功不可没。Transformer的核心是注意力机制，它像一个信息过滤器，让模型关注句子中最重要的部分。但即使是强大的Transformer，也会被无关信息干扰，就好比你在图书馆想找本书，结果被一堆无关的书淹没，效率自然低下。

这种注意力机制产生的无关信息，在论文中被称为注意力噪音。想象一下，你想在文件中找一个关键信息，结果Transformer模型的注意力却分散到各种无关的地方，就像一个近视眼，看不清重点。

为了解决这个问题，这篇论文提出了Differential Transformer （DIFF Transformer）。这个名字很高级，但原理其实很简单，就像降噪耳机一样，通过两个信号的差异来消除噪音。

Differential Transformer 的核心是差分注意力机制。它把查询和键向量分成两组，分别计算两个注意力图，再将这两个图相减，得到最终的注意力分数。这个过程就像用两台相机分别拍摄同一个物体，然后将两张照片叠加，差异的地方就会凸显出来。

通过这种方式，Differential Transformer 能够有效地消除注意力噪音，让模型更加专注于关键信息。就好比你戴上降噪耳机，周围的噪音消失了，你就能更清晰地听到想要的声音。

论文中进行了一系列实验，证明了Differential Transformer 的优越性。首先，它在语言建模方面表现出色，只需要Transformer65% 的模型大小或训练数据，就能达到类似的效果。

其次，Differential Transformer 在长文本建模方面也更胜一筹，能够有效地利用更长的上下文信息。

更重要的是，Differential Transformer 在关键信息检索、减少模型幻觉和上下文学习方面表现出显著优势。

在关键信息检索方面，Differential Transformer 就像一个精准的搜索引擎，能够在海量信息中准确地找到你想要的内容，即使是在信息极其复杂的场景下，也能保持高准确率。

在减少模型幻觉方面，Differential Transformer 能够有效地避免模型“胡说八道”，生成更准确、更可靠的文本摘要和问答结果。

在上下文学习方面，Differential Transformer 更像是学霸，能够快速地从少量样本中学习新知识，而且学习效果也更加稳定，不像Transformer那样容易受到样本顺序的影响。

此外，Differential Transformer 还能有效地降低模型激活值中的异常值，这意味着它对模型量化更友好，可以实现更低比特的量化，从而提高模型的效率。

总而言之，Differential Transformer 通过差分注意力机制有效地解决了Transformer模型的注意力噪音问题，并在多个方面取得了显著的改进。它为大语言模型的发展提供了新的思路，未来将会在更多领域发挥重要作用。

论文地址：https://arxiv.org/pdf/2410.05258

大语言模型 Transformer 注意力机制 DIFFTransformer

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Qwen3即将来袭：阿里云新模型相关支持已正式合并至vLLM代码库

近日，阿里云旗下人工智能大模型系列Qwen迎来重要进展，其下一代模型Qwen3的相关支持已正式合并至vLLM（高效大语言模型推理框架）的代码库中。这一消息迅速引发了科技圈的热烈讨论，标志着Qwen3的发布已进入倒计时阶段。据悉，Qwen3将包含至少两个版本:Qwen3-8B和Qwen3-MoE-15B-A2B，分别代表不同规模和架构的创新尝试，为开发者与企业用户带来了更多期待。Qwen3-8B作为系列中的基础模型，预计将延续Qwen家族在语言理解与生成任务上的优异表现。业界推测，这一版本可能在多模态能力上有所突

2025年4月8号 10:59

3.6k

EasyControl：让DiT模型拥有ControlNet般强大操控，支持吉卜力画风转换

在人工智能绘画领域，扩散模型（Diffusion Model）正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而，DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日，由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架，旨在为DiT模型提供高效且灵活的条件控制能力，犹如为DiT模型装上了强大的“ControlNet”。EasyControl的核心优势EasyControl并非简单的模型叠加，而是一套经过精心设计的统一条件DiT框架。其核心优势在于通过引入轻量级的条件注入LoRA模块（Condition Injection LoRA mod

2025年4月7号 13:49

14.0k

Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型

2025年4月3日消息：根据MathArena最新发布的大语言模型数学能力评测结果显示，Google的Gemini-2.5-pro以绝对优势领跑，在未污染的高难度数学竞赛中展现出令人瞩目的表现。突破性成绩Gemini-2.5-pro在MathArena平台的严格评测中取得了24.40%的准确率，这一成绩不仅位居榜首，更是与第二名DeepSeek-R1 的4.76%形成鲜明对比，领先优势达到惊人的五倍之多。这一突破性成绩表明Gemini-2.5-pro在高级数学推理能力上实现了质的飞跃。多项竞赛中的优异表现特别值得关注的是，Gemini-2.5-pro在"AIME 2025 I"竞赛测试中取

2025年4月3号 14:00

2.0k

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

2.1k

开源模型逆袭：Databricks TAO 技术微调 Llama 超越 GPT-4o

近日，数据智能公司 Databricks 推出了一种全新的大语言模型微调方法 ——TAO（Test-time Adaptive Optimization），这一技术的出现为开源模型的发展带来了新的希望。通过运用无标注数据和强化学习，TAO 不仅在降低企业成本方面表现出色，更是在一系列基准测试中取得了令人瞩目的成绩。根据科技媒体 NeoWin 的报道，TAO 微调后的 Llama3.370B 模型在金融文档问答和 SQL 生成等任务中，展现出了优于传统标注微调方法的性能，甚至逼近了 OpenAI 的顶级闭源模型。这一成果标志着开源模型在与商用 AI 产品

2025年3月27号 14:39

2.3k

宝马官宣与阿里达成AI合作通义大模型将上车

宝马集团与阿里巴巴集团正式宣布在中国市场达成一项重要的战略合作，双方将共同聚焦于人工智能（AI）大语言模型以及智能语音交互等前沿技术领域，致力于开发更符合中国用户需求的前沿解决方案。

2025年3月26号 11:23

2.2k

Google 发布 Gemini 2.5：迄今为止最智能的“思考”AI模型

2025 年 3 月 25 日，谷歌正式推出了其最新一代大语言模型Gemini 2.5，这一消息迅速在科技界引发热议。作为谷歌AI技术的一次重大升级，Gemini 2. 5 被誉为公司迄今为止"最智能的模型"，以其卓越的推理能力和多模态特性，标志着人工智能发展的又一里程碑。Gemini 2.5 Pro Experimental率先亮相根据谷歌官方博客的公告，Gemini 2. 5 的首发型号为Gemini 2.5 Pro Experimental，目前已通过Google AI Studio和Gemini应用程序向Gemini Advanced订阅用户开放试用。行业分析师指出，谷歌正式发布的Gemini 2. 5 在GPQA和AIME2025 测试中

2025年3月26号 8:58

4.0k

通付盾AI Agent信任系统建设宣言：从AI到IA，得Agent者得天下

深耕行业十四年，知浪潮将至，当相向而行。本文旨在结合企业思考，探讨AI新时代下的技术与应用趋势，对内秉初心以率众，对外纳灼见而求臻。技术分水岭:算力、算法和数据的能效博弈随着大模型的快速更迭，人类已经走上了通往人工超级智能（ASI）的快车道。大数据技术的成熟为AI提供了海量生产要素，GPU技术的发展为AI解放了生产力，算法革新为AI突破了算力与数据的瓶颈。随着DeepSeek、GPT o1、Grok等大语言模型在模型算法、训练参数和算力堆叠这几棵技能树上的不断精进，我们已经

2025年3月26号 8:51

1.5k

报道称阿里云启动近年来最大规模 AI 人才校园招聘

据科创板日报报道，阿里云在全球范围内开展项大规模的 AI 人才校园招聘活动。这次招聘规模被认为是近年来最大的一次，主要面向全球顶尖高校，如清华大学、北京大学、浙江大学、麻省理工学院和斯坦福大学等，旨在寻找在人工智能领域具备潜力的人才。此次招聘涵盖了多个技术领域，包括大语言模型、多模态理解与生成、模型应用以及 AI 基础设施等。为了吸引优秀人才，阿里云特别设立了 “A Star 项目” 和 “AI Clouder 项目”，专门面向那些在学术研究或开源项目方面表现突出的毕

2025年3月25号 15:18

2.4k

Midjourney新研究发力创意文本生成，让LLM写作更具创意

以AI图像生成技术闻名遐迩的Midjourney，正悄然展现其在人工智能领域的更广阔野心。这家拥有庞大用户群体的科技公司，在自研计算和AI硬件的消息之后，近期携手纽约大学（NYU）的机器学习专家，发布了一项关于训练文本生成大语言模型(LLMs)的最新研究成果。该研究聚焦于提升LLM在创意写作方面的能力，旨在使AI模型能够像Meta的Llama和Mistral等开源模型一样，写出更具创造性的文本。不止于图像:Midjourney发力创意文本生成对于一家以扩散模型AI图像生成技术著称的公司而言，Midjourney此次在文

2025年3月25号 10:21

2.4k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图