Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年1月24号 10:48

164

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室，近日推出了一种名为 Transformer² （Transformer-squared）的创新自适应语言模型。该模型无需昂贵的微调，即可在推理过程中动态学习并适应新任务，这标志着大型语言模型 (LLM) 技术发展的重要一步。

Transformer² 的核心创新在于其独特的两步动态权重调整机制。首先，它分析传入的用户请求，理解任务需求;然后，通过数学技巧，利用奇异值分解（SVD）将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件，Transformer² 能够实时优化性能，而无需耗时的重新训练。这与传统的微调方法形成鲜明对比，后者需要在训练后保持参数静态，或者采用低秩自适应 (LoRA) 等方法，仅修改一小部分参数。

Transformer 平方训练和推理（来源:arXiv）

为了实现动态调整，研究人员采用了奇异值微调（SVF）的方法。在训练时，SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。在推理时，Transformer² 通过分析提示来确定所需技能，然后配置相应的 z 向量，从而实现为每个提示量身定制的响应。

测试结果显示，Transformer² 在数学、编码、推理和视觉问答等各种任务中均优于 LoRA 模型，且参数更少。更令人瞩目的是，该模型还具有知识迁移能力，即从一个模型学习到的 z 向量可以应用到另一个模型，从而表明了广泛应用的潜力。

Transformer-squared（表中的 SVF）与基础模型和 LoRA 的比较(来源:arXiv)

Sakana AI 在其 GitHub 页面上发布了 Transformer² 组件的训练代码，为其他研究人员和开发人员打开了大门。

随着企业不断探索 LLM 的应用，推理时定制技术正逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等其他技术一道，正在改变 LLM 的应用方式，使用户能够根据其特定需求动态调整模型，而无需重新训练。这种技术的进步将使 LLM 在更广泛的领域内更加有用和实用。

Sakana AI 的研究人员表示，Transformer² 代表了静态人工智能与生命智能之间的桥梁，为高效、个性化和完全集成的人工智能工具奠定了基础。

Sakana AI发布“AI CUDA工程师”：自动化优化CUDA内核，速度提升高达100倍

日本人工智能初创公司Sakana AI宣布推出“AI CUDA工程师”（AI CUDA Engineer），这一创新性的AI智能体系统旨在自动化生产高度优化的CUDA内核，显著提升机器学习操作的运行效率。根据X平台上的最新消息，该系统通过进化的大型语言模型(LLM)驱动代码优化技术，将常见PyTorch操作的运行速度提高了10至100倍，标志着AI技术在GPU性能优化领域的重大突破。Sakana AI表示，CUDA内核作为GPU计算的核心，直接编写和优化通常需要深厚的专业知识和高技术门槛，而现有框架如PyTorch虽然使用便捷，但在性能上往

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的

AI新闻资讯