AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

Al硬件

列出所有AI硬件产品。

AI变现指南

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

DeepMind 指出 Transformer 在预训练数据范围外无法实现泛化能力

机器之心

发布于AI新闻资讯 · 1 分钟阅读 · Nov 7, 2023

大语言模型 Transformer 通过提供上下文样本进行少样本学习的能力，但 DeepMind 的研究者发现 Transformer 无法在预训练数据范围外实现泛化能力。研究者通过实证研究探讨了 Transformer 模型的泛化问题，并发现模型选择能力对于泛化能力具有一定限制。

Transformer 泛化预训练

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

姚班学霸、OpenAI姚顺雨：AI发展已从模型创新到产品思维

随着人工智能（AI）技术的不断成熟，业内专家提出，AI 发展的重心正在发生显著转变。从早期的模型训练和算法创新，转向更加关注任务定义与评估优化。这一观点由 OpenAI 的研究员姚顺雨提出，他强调，在 AI 的下半场，产品思维将成为推动技术应用和商业化的关键。在 AI 的上半场，研究者们专注于构建强大的模型，例如 Transformer 和 GPT-3等，这些模型在各种基准任务中表现出色。此阶段的核心在于方法论，研究人员主要关注如何设计和优化算法，而任务的定义往往被视为次要。因此，尽

2025年4月17号 17:54

15.8k

预训练不等于更强大，研究揭示大语言模型的 “灾难性过度训练” 现象

近日，来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型（LLMs）训练的新发现:并不是预训练的数据越多，模型的表现就越好。相反，他们指出，过度的预训练可能会导致模型性能下降，出现一种被称为 “灾难性过度训练” 的现象。在一项研究中，研究者们对 OLMo-1B 模型进行了比较，分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是，虽然第二个模型接受了更多的数据训练，但其在一些基准测试（例如 AlpacaEval 和 ARC）的表现却下

2025年4月14号 11:16

1.7k

广汽人形机器人GoMate将在2026年实现量产实现批量全球发售

4月9日，在广东省人工智能与机器人产业创新产品与服务新闻发布会上，广汽集团正式发布其第三代具身人形机器人GoMate。广汽机器人团队负责人透露，GoMate目前已在安防领域展开应用，执行巡检等任务，未来更将拓展至汽车生产线及后服务市场等领域。对于为何涉足人形机器人领域，张爱民解释，新能源汽车与人形机器人在技术和供应链上存在高度关联性，例如芯片、激光雷达、视觉传感器等技术可直接复用。同时，汽车生产车间和4S店也为人形机器人提供了广阔的应用场景。广汽集团希

2025年4月9号 14:06

8.2k

AI视频生成技术TTT：可直出一分钟完整猫和老鼠动画无需编辑、拼接

近日，一项名为《One-Minute Video Generation with Test-Time Training》（一分钟视频生成与测试时训练）的全新研究论文正式发布，标志着人工智能视频生成技术迈入了一个崭新阶段。该研究通过在预训练Transformer模型中引入创新的测试时训练(TTT)层，成功实现了生成一分钟《猫和老鼠》(Tom and Jerry)动画视频的壮举。这一技术不仅在时间跨度上突破了传统AI视频生成的限制，还在画面连贯性和故事完整性上达到了令人惊叹的高度，为AI驱动的创意内容生产开辟了新的可能性。这项研究的亮点在于其生成

2025年4月9号 10:41

4.8k

EasyControl：让DiT模型拥有ControlNet般强大操控，支持吉卜力画风转换

在人工智能绘画领域，扩散模型（Diffusion Model）正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而，DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日，由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架，旨在为DiT模型提供高效且灵活的条件控制能力，犹如为DiT模型装上了强大的“ControlNet”。EasyControl的核心优势EasyControl并非简单的模型叠加，而是一套经过精心设计的统一条件DiT框架。其核心优势在于通过引入轻量级的条件注入LoRA模块（Condition Injection LoRA mod

2025年4月7号 13:49

14.8k

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

2.3k

视觉语言AI新突破！伯克利发布TULIP模型，性能大幅超越现有技术

加州大学伯克利分校研究团队近日发布了其最新的研究成果——TULIP （Towards Unified Language-Image Pretraining）模型。该模型旨在提升视觉语言预训练的性能，特别是在需要高保真理解的视觉中心任务中，克服了现有对比学习模型（如CLIP）的局限性。TULIP通过集成生成式数据增强、增强的对比学习以及重构正则化等创新技术，显著提升了视觉和语言之间的对齐能力。实验结果表明，TULIP在多个基准测试中均取得了最先进的性能，为零样本分类和视觉语言推理树立了新的标杆。核心技术解析:三大创

2025年3月24号 16:49

2.5k

腾讯发布混元 - T1 正式版，推理能力大幅提升

近日，腾讯发布了混元大模型系列的正式版 —— 混元 - T1。这款新模型基于混元中等规模底座，经过大规模后训练，显著增强了推理能力，特别是在深度思考和复杂问题解决方面表现出色。自从今年2月混元 T1-Preview 上线以来，用户们便体验到了更快、更深刻的思考过程，而此次正式版的推出，则标志着该系列产品的进一步升级。混元 - T1的研发团队利用最新的 TurboS 基座，这是一种行业领先的超大规模 Hybrid-Transformer-Mamba MoE 模型。TurboS 在处理长文本推理时展现出独特优势，有效解决了上下

2025年3月24号 9:54

2.7k

摩尔线程重磅开源两大AI框架，国产GPU训练效率突破90%

深度计算领域再添利器!摩尔线程今日重磅宣布，正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架，这一举措将为国产计算基础设施注入强劲动力。这两大框架通过深度融合FP8混合训练策略和高性能算子库，成功在国产全功能GPU上实现混合并行训练和推理，大幅提升了大模型训练的效率与稳定性。摩尔线程此次开源的MT-MegatronLM框架专为全功能GPU打造，支持dense模型、多模态模型及MoE（混合专家）模型的高效训练，满足了当前AI领域多样化的训练需求。而MT-TransformerEngine则主攻Transformer模型的训

2025年3月18号 10:46

3.2k

挑战传统：无归一化层的 Transformer 架构新突破

在深度学习领域，归一化层被视为现代神经网络中不可或缺的组件之一。最近，一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh（Dynamic Tanh，DyT）的新技术，还展示了在不使用传统归一化层的情况下，Transformer 架构依然可以实现高效的训练和推理。归一化层，尤其是层归一化（Layer Normalization，LN），在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩，从

2025年3月14号 16:06

2.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图