无标记化的语言模型T-FREE 像施了魔法一样高效！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 14, 2024

207

研究团队最近带来了一个令人兴奋的新方法，叫做 T-FREE，让大型语言模型的运作效率直线上升。来自 Aleph Alpha、达姆施塔特工业大学、hessian.AI 和德国人工智能研究中心（DFKI）的科学家们联合推出了这个令人惊叹的技术，它的全名是 “无需标记器的稀疏表示，可实现内存高效嵌入”。

传统上，我们使用标记器将文本转化为计算机能理解的数字形式，但 T-FREE 选择了一条不同的路。它利用字符三元组，也就是我们称之为 “三元组” 的东西，通过稀疏激活的方式直接将单词嵌入模型中。这一创新举措的结果是，嵌入层的参数数量减少了惊人的85% 以上，同时在处理文本分类和问答等任务时，模型的性能丝毫未受影响。

T-FREE 的另一大亮点在于它非常聪明地对单词间的形态相似性进行了建模。就像我们在日常生活中经常碰到的 “house”、“houses” 和 “domestic” 这些词，T-FREE 能更有效地将这些相似的词在模型中表示出来。研究人员认为，相似的词在嵌入时应该彼此靠得更近，从而实现更高的压缩率。因此，T-FREE 不仅减小了嵌入层的体积，还将文本的平均编码长度减少了56%。

更值得一提的是，T-FREE 在不同语言之间的迁移学习方面表现得尤为出色。在一项实验中，研究人员使用一个拥有30亿参数的模型，先用英语进行训练，再用德语进行训练，结果发现 T-FREE 的适应性远超传统的基于标记器的方法。

不过，研究人员也对目前的成果保持谦虚。他们承认，至今为止的实验仅限于多达30亿参数的模型，未来还计划在更大的模型和更庞大的数据集上进行进一步评估。

T-FREE AlephAlpha DFKI 稀疏表示

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

2026 年人机大战敲定！Grok5 将挑战《英雄联盟》S16 冠军，T1 已应战

马斯克旗下xAI宣布，其新一代模型Grok-5将于2026年挑战《英雄联盟》S16全球总决赛冠军T1战队。比赛采用严格"人类等效限制"：AI仅通过单路1080p摄像头观赛，视野与人类相同，反应延迟不低于150毫秒，APM上限300，禁用API、外挂或超算资源，确保公平竞技。

2025年11月26号 11:24

220

英伟达公开表示为谷歌AI成就感到高兴，但我们目前仍是行业领先

英伟达回应谷歌AI进展，强调自身在AI基础设施领域的核心地位，称其是唯一能运行所有主流AI模型、覆盖云端到边缘计算的全平台，领先行业约一代。黄仁勋指出，英伟达通用GPU在性能、灵活性和可替代性上优于专用AI芯片。

2025年11月26号 10:27

320

xLLM社区12月6日首揭开源推理引擎：支持MoE、T2I、T2V全场景，联合Mooncake缓存方案实现延迟低于20ms

xLLM社区将于12月6日举办首届线下Meetup，主题为“共建开源AI Infra生态”。活动将展示自研推理引擎xLLM-Core，其性能数据表现突出：在同级GPU上，MoE、文生图、文生视频三类任务的P99延迟均低于20ms，较vLLM平均延迟下降42%，吞吐量提升2.1倍。技术亮点包括统一计算图抽象多模态任务为“Token-in Token-out”结构，以及Mooncake KV缓存集成优化。

2025年11月25号 16:18

全球首个“纯AMD”训练MoE大模型ZAYA1 发布：14T tokens+CCA注意力，性能对标Qwen3

AMD联合IBM与Zyphra推出全球首个全AMD硬件训练的MoE模型ZAYA1，预训练14万亿token，性能媲美Qwen3系列，数学推理接近专业版。采用128节点×8张MI300X显卡集群，算力达750PFLOPs。创新CCA注意力机制融合卷积与压缩嵌入，数据采用课程学习从通用到专业领域过渡。后续将发布优化版本。

2025年11月25号 15:28

310