革命性突破！斯坦福UCSD联合打造TTT架构，5年磨一剑，Transformer时代终结？

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jul 9, 2024

517

在AI的世界里，变革总是在不经意间到来。就在最近，一个名为TTT的全新架构横空出世，它由斯坦福、UCSD、UC伯克利和Meta的研究人员共同提出，一夜间颠覆了Transformer和Mamba，为语言模型带来了革命性的改变。

TTT，全称Test-Time-Training layers，是一种全新的架构，它通过梯度下降压缩上下文，直接替代了传统的注意力机制。这一方法不仅提高了效率，更解锁了具有表现力记忆的线性复杂度架构，让我们能够在上下文中训练包含数百万甚至数十亿个token的LLM。

TTT层的提出，是基于对现有RNN和Transformer架构的深刻洞察。RNN虽然效率高，但受限于其表达能力;而Transformer虽然表达能力强，但计算成本随上下文长度线性增长。TTT层则巧妙地结合了两者的优点，既保持了线性复杂度，又增强了表达能力。

在实验中，TTT-Linear和TTT-MLP两种变体均展现出了卓越的性能，它们在短上下文和长上下文中均超越了Transformer和Mamba。特别是在长上下文的场景下，TTT层的优势更加明显，这为长视频建模等应用场景提供了巨大的潜力。

TTT层的提出，不仅在理论上具有创新性，更在实际应用中展现出了巨大的潜力。未来，TTT层有望应用于长视频建模，通过密集采样帧来提供更丰富的信息，这对于Transformer来说是一种负担，但对于TTT层来说却是一种福音。

这项研究是团队五年磨一剑的成果，从Yu Sun博士的博士后时期就开始酝酿。他们坚持探索，不断尝试，最终实现了这一突破性的成果。TTT层的成功，是团队不懈努力和创新精神的结晶。

TTT层的问世，为AI领域带来了新的活力和可能性。它不仅改变了我们对语言模型的认识，更为未来的AI应用开辟了新的道路。让我们一起期待TTT层在未来的应用和发展，见证AI技术的进步和突破。

论文地址：https://arxiv.org/abs/2407.04620

从红包大战到 AI 对决：火山引擎或成为2026春晚独家合作伙伴

字节跳动旗下火山引擎成为2026年央视春晚独家AI云合作伙伴，其智能助手“豆包”将深度参与互动。春晚作为国民级IP，是互联网产品实现爆发式增长的关键战场，字节跳动此举意在复制微信支付等通过春晚实现突破的成功模式。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO品牌监控分析

GEO排名查询工具

GEO 大模型推荐优化

模型个人电脑配置检测器

模型部署服务器配置计算器

革命性突破！斯坦福UCSD联合打造TTT架构，5年磨一剑，Transformer时代终结？

AIbase

本文来自AIbase日报

相关AI新闻推荐

英伟达云业务战略调整:重心转向内部 AI 开发

​微软纳德拉重返一线督战，Copilot付费增长为何陷入瓶颈?

​生数科技与清华大学联合推出 TurboDiffusion 视频生成加速框架

钉钉推出专为企业打造的 AI 硬件 DingTalk Real

AI日报：智谱发布开源编程大模型GLM-4.7;豆包或成为2026春晚AI合作伙伴;ChatGPT 推出年终回顾功能

​谷歌 DeepMind 发布 Gemma Scope 2：为 Gemma 3 模型提供全栈可解释性工具

从红包大战到 AI 对决：火山引擎或成为2026春晚独家合作伙伴

​加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

吸金6.6亿美元!Steam 近八成游戏染指 AI，争议声中大作纷纷“沦陷”

苹果初代智能眼镜细节曝光，将成 iPhone 最强 AI 配件

相关AI新闻推荐

英伟达云业务战略调整:重心转向内部 AI 开发

​微软纳德拉重返一线督战，Copilot付费增长为何陷入瓶颈?

​生数科技与清华大学联合推出 TurboDiffusion 视频生成加速框架

钉钉推出专为企业打造的 AI 硬件 DingTalk Real

AI日报：智谱发布开源编程大模型GLM-4.7;豆包或成为2026春晚AI合作伙伴;ChatGPT 推出年终回顾功能

​谷歌 DeepMind 发布 Gemma Scope 2：为 Gemma 3 模型提供全栈可解释性工具

从红包大战到 AI 对决：火山引擎或成为2026春晚独家合作伙伴

​加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

吸金6.6亿美元!Steam 近八成游戏染指 AI，争议声中大作纷纷“沦陷”

苹果初代智能眼镜细节曝光，将成 iPhone 最强 AI 配件

微软纳德拉重返一线督战，Copilot付费增长为何陷入瓶颈?

生数科技与清华大学联合推出 TurboDiffusion 视频生成加速框架

谷歌 DeepMind 发布 Gemma Scope 2：为 Gemma 3 模型提供全栈可解释性工具

加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态

微软纳德拉重返一线督战，Copilot付费增长为何陷入瓶颈?

生数科技与清华大学联合推出 TurboDiffusion 视频生成加速框架

谷歌 DeepMind 发布 Gemma Scope 2：为 Gemma 3 模型提供全栈可解释性工具

加速端侧大模型进化：面壁智能获数亿元新融资，深度布局智能座舱与终端生态