论文新解！用“画家流水线”揭示Transformer中间层的工作机制

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 8, 2024

158

在人工智能的世界里，有一群特殊的"画家"——Transformer模型中的层级结构。它们像一支支神奇的画笔，在语言的画布上描绘出丰富多彩的世界。最近，一篇名为"Transformer Layers as Painters"的论文，为我们理解Transformer中间层的工作机制提供了新的视角。

Transformer模型，作为当下最流行的大型语言模型，拥有数十亿的参数量。它的每一层，就像一位位画家，共同完成一幅宏大的语言画卷。但这些"画家"是如何协同工作的?它们使用的"画笔"和"颜料"又有何不同?这篇论文试图回答这些问题。

为了探究Transformer层的工作原理，作者设计了一系列实验，包括跳过某些层、改变层的顺序或并行运行层等。这些实验就好比给"画家"们设置不同的作画规则，看看他们能否适应。

在「画家流水线」的比喻中，输入被看作是一张画布，通过中间层的过程就像是画布在流水线上的传递。每个「画家」，即Transformer的每个层，都会根据自己的专长对画作进行修改。这种类比帮助我们理解了Transformer层的并行性和可调整性。

实验使用了两种预训练的大型语言模型（LLM）:Llama2-7B和BERT。研究发现，中间层的"画家"们似乎共享着一个共同的"颜料盒"——表示空间，而与首尾层有所不同。跳过某些中间层的"画家"，对整幅画作的影响并不大，说明并非所有"画家"都是必须的。

尽管中间层的"画家"们使用相同的"颜料盒"，但它们却用各自的技艺，在画布上描绘出不同的图案。如果简单地重复使用某位"画家"的技艺，画作就会失去原有的魅力。

对于需要严密逻辑的数学和推理任务，"作画"的顺序尤为重要。而对于依赖语义理解的任务，顺序的影响则相对较小。

研究结果表明，Transformer的中间层具有一定程度的一致性，但并不冗余。对于数学和推理任务，层的顺序比语义任务更为重要。

研究还发现，并非所有层都是必要的，中间层可以跳过而不会灾难性地影响模型性能。此外，中间层虽然共享相同的表征空间，但它们执行着不同的功能。改变层的执行顺序会导致性能下降，表明顺序对于模型性能有重要影响。

在探索Transformer模型的道路上，许多研究者都在尝试对其进行优化，包括剪枝、减少参数等。这些工作为理解Transformer模型提供了宝贵的经验和启示。

论文地址：https://arxiv.org/pdf/2407.09298v1

Transformer 人工智能语言模型画家

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Shortcut横空出世！AI Excel助手10倍速碾压人类冠军，自动化任务效率飙升

近日，一款名为Shortcut的AI Excel助手在社交媒体上引发热议，其通过自然语言处理（NLP）技术，让用户无需编写复杂公式或VBA代码，即可轻松完成Excel任务。AIbase编辑团队整理了社交媒体上的最新信息，为您深度解析Shortcut的强大功能及其对数据处理和财务建模领域的潜在影响。Shortcut:自然语言驱动的Excel革命Shortcut被誉为“超人级Excel代理”（Superhuman Excel Agent），能够通过简单的自然语言指令完成复杂的Excel任务。用户只需描述需求，例如“帮我计算总销售额”或“生成月度销售趋势图”，

2025年7月3号 17:58

A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、字节跳动EX-4D震撼开源:单目视频秒变自由视角4D大片EX-4D是字节跳动PICO-MR团队推出的4D视频生成框架，能够从单目视频生成高质量、多视角的4D视频序列。该技术通过深度密闭网格（DW-Mesh）和轻量级适配架构，解决了传统视频生成技术在多视角生成中的挑战，并在性能指标上全面领先。【AiBase

2025年7月3号 16:27

480

字节跳动开源新模型VINCIE-3B：3亿参数，支持上下文连续图像编辑

字节跳动宣布开源VINCIE-3B，一款支持上下文连续图像编辑的3亿参数模型，基于其内部MM-DiT架构开发。这款模型突破了传统图像编辑的局限，首次实现从单一视频数据中学习上下文感知的图像编辑能力，无需依赖复杂的分割或修复模型生成训练数据。VINCIE-3B的发布为创意设计、影视后期及内容生成领域带来了全新的可能性。AIbase深入剖析其技术亮点、应用场景及行业影响。技术突破:从视频到上下文编辑传统图像编辑模型通常依赖任务特定的数据管道，需通过专家模型（如分割、修复）生成

2025年7月3号 14:30

1.8k

Claude Code再升级！Hooks功能解锁AI编程新境界，自动化更智能

随着人工智能技术在编程领域的深入应用，Anthropic推出的Claude Code凭借其强大的代码理解与自动化能力，已成为众多开发者的得力助手。就在昨日，Claude Code迎来了一次重要更新，新增了Hooks功能，为开发者提供了更精细的控制能力和更高效的开发体验。什么是Hooks功能?Hooks功能是Claude Code引入的一种用户自定义shell命令机制，允许开发者在Claude Code的代理循环（Agent Loop）的不同阶段自动执行特定操作。根据社交媒体反馈，这一功能的核心在于其确定性控制，确保关键任务(如代码格式化、测试

2025年7月3号 14:28

1.4k

百度文心联手小米应用商店，智能体正式"登陆"传统应用市场

百度文心智能体平台宣布与小米应用商店达成深度合作，双方联手打造行业首个智能体与应用市场跨端分发模式，正式上线"AI智能体专区"，实现智能体与传统应用市场的首次深度融合。根据合作协议，小米应用商店将从即日起陆续向用户开放AI智能体分发功能，在应用市场首页专门增设AI智能体专区。此举标志着智能体服务正式进入主流应用分发渠道，为用户提供更便捷的AI服务获取途径。在技术实现层面，文心智能体平台的开发者现可通过一键部署功能，将自己开发的智能体直接发布至小

2025年7月3号 14:19

780

毕马威报告:中国医疗大模型数量领跑占全球七成

毕马威中国近日发布的《首届健康科技50》报告揭示，中国在医疗大模型领域已占据全球主导地位。报告指出，在全球已发布的医疗大模型中，中国发布数量占比超过70%，远超其他国家和地区。从模型类别来看，大语言模型（LLM）数量最多，占比接近65%。此外，报告还强调了中国智能医疗器械市场的强劲增长势头。预计到2025年，中国智能医疗器械市场规模将达到242.3亿元，并在2026年至2027年间有望继续保持较高速度增长。这一系列数据表明，中国在健康科技，特别是医疗人工智能和智能医疗

2025年7月3号 14:13

590

Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头

Bilibili（B站）宣布其开源动漫视频生成模型AniSora迎来重大更新，正式发布AniSora V3。作为Index-AniSora项目的一部分，V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及VTuber内容创作者提供了更强大的工具。AIbase深入解读AniSora V3的技术突破、应用场景及行业影响。技术升级:更高质量与精准控制AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型，结合强化学习与人类反馈（RLHF）框架，显著提升了生成视频的视觉质量和动作一致性。其支持一键

2025年7月3号 11:59

1.8k

Perplexity 推出每月200美元“Max”订阅服务，解锁高级 AI 模型与独家功能

Perplexity 现已推出每月200美元的 AI 订阅服务 Perplexity Max。这项新订阅旨在为用户提供一系列增强功能，包括访问“顶级高级 AI 模型”以及抢先体验即将推出的 Comet 浏览器等独家福利。Perplexity Max 订阅服务目前可在网页版和 iOS 应用上使用。Perplexity AI 是一家由前 Google AI 专家创办的初创公司，于2022年成立，并在短时间内凭借其独特的对话式搜索引擎获得了广泛关注。不同于传统的搜索引擎仅提供链接列表，Perplexity AI 能够直接为用户提供带有引用来源的摘要答案，使其在信息获取方面更加

2025年7月3号 11:51

910

小米应用商店上线AI智能体专区首批合作百度文心智能体平台

自7月起，小米应用商店将分阶段向用户开放AI智能体分发服务。用户打开小米应用商店APP后，点击底部新增的【智能体】入口，即可直达专区浏览并体验各类实用有趣的AI智能体产品。同时，用户还可通过搜索功能快速定位所需服务，整个过程无需下载安装，真正实现“即开即用”的便捷体验。这一创新模式不仅降低了用户获取AI服务的门槛，更通过场景化推荐提升了服务触达效率。值得关注的是，小米应用商店此次与百度文心智能体平台达成深度合作，首批引入其优质智能体资源。开发者在百度文心平台完成智能体开发后，仅需选择“

2025年7月3号 11:43

1.2k

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小

2025年7月3号 11:05

1.1k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图