随着大语言模型(LLM)在现代人工智能应用中的广泛应用,诸如聊天机器人和代码生成器等工具依赖于这些模型的能力。然而,随之而来的推理过程中的效率问题也日益突出。尤其是在处理注意力机制时,如 FlashAttention 和 SparseAttention,面对多样化的工作负载、动态输入模式以及 GPU 资源限制时,往往显得力不从心。这些挑战加上高延迟和内存瓶颈,迫切需要更高效、灵活的解决方案,以支持可扩展和响应迅速的 LLM 推理。为了解决这一问题,来自华盛顿大学、NVIDIA、Perplexity AI 和卡内基梅
生成式语言模型在从训练到实际应用的过程中面临着许多挑战。其中一个主要问题是如何在推理阶段使模型达到最佳表现。目前的对策,如通过人类反馈的强化学习(RLHF),主要集中在提高模型的胜率上,但往往忽视了推理时的解码策略,例如 Best-of-N 采样和控制解码。这种训练目标与实际使用之间的差距,可能导致效率低下,影响输出的质量和可靠性。为了解决这些问题,谷歌 DeepMind 和谷歌研究团队开发了 InfAlign,这是一个旨在与推理策略相结合的机器学习框架。InfAlign 将推理时的方法
博通(Broadcom)首席执行官Hock Tan近期在接受《金融时报》采访时表示,博通将全力专注于人工智能(AI)业务的推进,并且没有收购英特尔(Intel)的计划。Hock Tan指出,博通在 AI 半导体方面的运营需要大量的资源与关注,且目前没有收到任何收购英特尔的提案。他进一步表示,博通只有在情况下合适的情况下才会考虑收购。图源备注:图片由AI生成,图片授权服务商Midjourney在Hock Tan的领导下,博通以其大胆的收购策略而闻名。2015年,博通以370亿美元收购了 Avago Technologies,从而形成了今天的博通
博通公司在最近的财报电话会议上,首席执行官Hock Tan分享了对未来 AI 芯片市场的乐观展望,预计到2027年,公司在这一领域的收入将显著增长。图源备注:图片由AI生成,图片授权服务商Midjourney他表示,博通的 AI 相关产品和网络的服务可寻址市场(SAM)预计将在600亿到900亿美元之间。谭还透露,博通目前与三家主要的超大规模客户合作,且还有两家潜在客户正在进行深入洽谈,这些客户计划购买数百万个博通的 AI 加速器(XPU),以提升他们的人工智能工作负载。Hock Tan分强调,这一进程并非