DeepMind 指出 Transformer 在预训练数据范围外无法实现泛化能力

机器之心
本文来自AIbase日报
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。
随着人工智能(AI)技术的不断成熟,业内专家提出,AI 发展的重心正在发生显著转变。从早期的模型训练和算法创新,转向更加关注任务定义与评估优化。这一观点由 OpenAI 的研究员姚顺雨提出,他强调,在 AI 的下半场,产品思维将成为推动技术应用和商业化的关键。在 AI 的上半场,研究者们专注于构建强大的模型,例如 Transformer 和 GPT-3等,这些模型在各种基准任务中表现出色。此阶段的核心在于方法论,研究人员主要关注如何设计和优化算法,而任务的定义往往被视为次要。因此,尽
近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。出乎意料的是,虽然第二个模型接受了更多的数据训练,但其在一些基准测试(例如 AlpacaEval 和 ARC)的表现却下
4月9日,在广东省人工智能与机器人产业创新产品与服务新闻发布会上,广汽集团正式发布其第三代具身人形机器人GoMate。广汽机器人团队负责人透露,GoMate目前已在安防领域展开应用,执行巡检等任务,未来更将拓展至汽车生产线及后服务市场等领域。对于为何涉足人形机器人领域,张爱民解释,新能源汽车与人形机器人在技术和供应链上存在高度关联性,例如芯片、激光雷达、视觉传感器等技术可直接复用。同时,汽车生产车间和4S店也为人形机器人提供了广阔的应用场景。广汽集团希
近日,一项名为《One-Minute Video Generation with Test-Time Training》(一分钟视频生成与测试时训练)的全新研究论文正式发布,标志着人工智能视频生成技术迈入了一个崭新阶段。该研究通过在预训练Transformer模型中引入创新的测试时训练(TTT)层,成功实现了生成一分钟《猫和老鼠》(Tom and Jerry)动画视频的壮举。这一技术不仅在时间跨度上突破了传统AI视频生成的限制,还在画面连贯性和故事完整性上达到了令人惊叹的高度,为AI驱动的创意内容生产开辟了新的可能性。这项研究的亮点在于其生成
在人工智能绘画领域,扩散模型(Diffusion Model)正经历从基于Unet架构向基于Transformer架构(DiT)的转变。然而,DiT生态系统在插件支持、效率以及多条件控制等方面仍面临挑战。近日,由Xiaojiu-z领衔的团队推出了名为EasyControl的创新框架,旨在为DiT模型提供高效且灵活的条件控制能力,犹如为DiT模型装上了强大的“ControlNet”。EasyControl的核心优势EasyControl并非简单的模型叠加,而是一套经过精心设计的统一条件DiT框架。其核心优势在于通过引入轻量级的条件注入LoRA模块(Condition Injection LoRA mod
人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”(FFN Fusion)的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈,显著提升大型语言模型(LLMs)的推理效率,为更广泛地部署高性能AI应用铺平道路.近年来,大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而,随着模型规模和复杂性的不断增加,其推理过程所需的计算资源也大幅增长,导致了效率瓶颈。Transformer架构是LLM的基础,其交替的注意力机制和前馈网络
加州大学伯克利分校研究团队近日发布了其最新的研究成果——TULIP (Towards Unified Language-Image Pretraining) 模型。该模型旨在提升视觉语言预训练的性能,特别是在需要高保真理解的视觉中心任务中,克服了现有对比学习模型(如CLIP)的局限性。TULIP通过集成生成式数据增强、增强的对比学习以及重构正则化等创新技术,显著提升了视觉和语言之间的对齐能力。实验结果表明,TULIP在多个基准测试中均取得了最先进的性能,为零样本分类和视觉语言推理树立了新的标杆。核心技术解析:三大创
近日,腾讯发布了混元大模型系列的正式版 —— 混元 - T1。这款新模型基于混元中等规模底座,经过大规模后训练,显著增强了推理能力,特别是在深度思考和复杂问题解决方面表现出色。自从今年2月混元 T1-Preview 上线以来,用户们便体验到了更快、更深刻的思考过程,而此次正式版的推出,则标志着该系列产品的进一步升级。混元 - T1的研发团队利用最新的 TurboS 基座,这是一种行业领先的超大规模 Hybrid-Transformer-Mamba MoE 模型。TurboS 在处理长文本推理时展现出独特优势,有效解决了上下
深度计算领域再添利器!摩尔线程今日重磅宣布,正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架,这一举措将为国产计算基础设施注入强劲动力。这两大框架通过深度融合FP8混合训练策略和高性能算子库,成功在国产全功能GPU上实现混合并行训练和推理,大幅提升了大模型训练的效率与稳定性。摩尔线程此次开源的MT-MegatronLM框架专为全功能GPU打造,支持dense模型、多模态模型及MoE(混合专家)模型的高效训练,满足了当前AI领域多样化的训练需求。而MT-TransformerEngine则主攻Transformer模型的训
在深度学习领域,归一化层被视为现代神经网络中不可或缺的组件之一。最近,一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不使用传统归一化层的情况下,Transformer 架构依然可以实现高效的训练和推理。归一化层,尤其是层归一化(Layer Normalization,LN),在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩,从