Meta 推出“大型概念模型” LCMs！突破 LLM 局限，引领 AI 语言理解新方向

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 16, 2024

761

大型语言模型 (LLM) 在自然语言处理 (NLP) 领域取得了显著进展，使其在文本生成、摘要和问答等应用中大放异彩。然而，LLM 对令牌级处理（一次预测一个词）的依赖也带来了一些挑战。这种方法与人类的交流方式形成对比，后者通常在更高层次的抽象层面运作，例如句子或想法。

令牌级建模在需要长上下文理解的任务中也显得力不从心，并可能产生不一致的输出。此外，将这些模型扩展到多语言和多模态应用中，在计算上成本高昂，且需要大量数据。为了解决这些问题，Meta AI 的研究人员提出了一种新的方法：大型概念模型 (LCM)。

大型概念模型：语义理解新范式

Meta AI 的大型概念模型 (LCM) 代表了传统 LLM 架构的转变。LCM 引入了两项重大创新：

高维嵌入空间建模： LCM 不再对离散令牌进行操作，而是在高维嵌入空间中执行计算。这个空间表示抽象的意义单位，称为概念，对应于句子或话语。这个名为 SONAR 的嵌入空间被设计为与语言和模态无关，支持 200 多种语言和多种模态，包括文本和语音。

与语言和模态无关的建模： 与绑定到特定语言或模态的模型不同，LCM 在纯粹的语义层面处理和生成内容。这种设计允许在语言和模态之间无缝切换，从而实现强大的零样本泛化。

LCM 的核心是概念编码器和解码器，它们将输入句子映射到 SONAR 的嵌入空间，并将嵌入解码回自然语言或其他模态。这些组件是冻结的，确保了模块化，并且易于扩展到新的语言或模态，而无需重新训练整个模型。

LCM 的技术细节和优势

LCM 引入了几项创新来推进语言建模：

分层架构： LCM 采用分层结构，镜像人类的推理过程。这种设计提高了长篇内容的连贯性，并允许局部编辑，而不会破坏更广泛的上下文。

基于扩散的生成： 扩散模型被认为是 LCM 最有效的设计。这些模型根据前面的嵌入预测下一个 SONAR 嵌入。探索了两种架构：

单塔： 单个 Transformer 解码器处理上下文编码和去噪。

双塔： 将上下文编码和去噪分开，为每个任务提供专用组件。

可扩展性和效率： 与令牌级处理相比，概念级建模减少了序列长度，解决了标准 Transformer 的二次复杂性，并能够更有效地处理长上下文。

零样本泛化： LCM 通过利用 SONAR 广泛的多语言和多模态支持，在看不见的语言和模态上表现出强大的零样本泛化能力。

搜索和停止标准： 基于与 “文档结束” 概念的距离的停止标准的搜索算法，确保连贯和完整的生成，而无需进行微调。

实验结果的启示

Meta AI 的实验突出了 LCM 的潜力。一个扩展到 70 亿参数的基于扩散的双塔 LCM 在摘要等任务中表现出竞争优势。主要结果包括：

多语言摘要： LCM 在多种语言的零样本摘要中优于基线模型，展示了其适应性。

摘要扩展任务： 这个新颖的评估任务展示了 LCM 生成具有连贯性和一致性的扩展摘要的能力。

效率和准确性： LCM 处理更短的序列比基于令牌的模型更有效率，同时保持了准确性。研究结果详细说明，诸如互信息和对比准确性等指标显示出显著的改进。

总结

Meta AI 的大型概念模型为传统的基于令牌的语言模型提供了一种有希望的替代方案。通过利用高维概念嵌入和与模态无关的处理，LCM 解决了现有方法的主要局限性。它们的分层架构提高了连贯性和效率，而其强大的零样本泛化能力则将其适用性扩展到不同的语言和模态。随着对这种架构研究的继续，LCM 有可能重新定义语言模型的能力，为 AI 驱动的通信提供更可扩展和适应性更强的方法。

总而言之，Meta 的 LCM 模型代表了 AI 语言理解领域的一项重要突破。它为我们提供了一种超越传统令牌级建模的新视角，有望在未来的 AI 应用中发挥更大的作用。

大型语言模型自然语言处理 MetaAI 大型概念模型

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

OpenAI推出AI Agent评测基准PaperBench

OpenAI 团队推出了一个名为 PaperBench 的基准测试，旨在评估AI代理在复制先进 AI 研究方面的能力。该测试要求 AI 代理从头开始复制20篇2024年国际机器学习会议（ICML）中的重点和口头论文，整个过程涉及理解论文贡献、开发代码库以及成功执行实验。为确保评估的客观性，研究人员设计了详细的评分标准。这些标准将每项复制任务分解为多个层级的子任务，并设定明确的评分标准。PaperBench 一共包含8316个可以单独评分的任务，所有评分量规均与每篇论文的作者合作开发，以保证其准确性和真

2025年4月3号 9:31

3.0k

英伟达AI研究人员推出FFN融合技术:加速大型语言模型推理

人工智能芯片巨头英伟达的研究人员近日发布了一项名为“FFN融合”（FFN Fusion）的创新架构优化技术。该技术旨在通过解决Transformer架构中固有的串行计算瓶颈，显著提升大型语言模型（LLMs）的推理效率，为更广泛地部署高性能AI应用铺平道路.近年来，大型语言模型在自然语言处理、科学研究和对话代理等领域展现出强大的能力。然而，随着模型规模和复杂性的不断增加，其推理过程所需的计算资源也大幅增长，导致了效率瓶颈。Transformer架构是LLM的基础，其交替的注意力机制和前馈网络

2025年3月31号 13:48

1.9k

告别AI“一本正经”!Midjourney联手NYU解锁创意文本新维度，多样性飙升23%!

Midjourney 和纽约大学的研究人员近日联手开发出一种创新方法，旨在显著提升语言模型生成创意文本的多样性，同时将质量损失控制在最低限度。这项发表在最新研究论文中的技术，核心在于将“偏差指标”引入人工智能的训练过程。其运作原理是通过量化每个生成的文本与针对同一提示创建的其他文本之间的差异。研究人员利用嵌入文本及其成对余弦距离来计算这些差异，从而为系统提供了一种理解文本变异性的数学框架。这种新的训练方法能够评估大型语言模型（LLM）响应之间的差异

2025年3月31号 10:34

1.0k

亚马逊推出个性化购物提示，推动生成式 AI 应用

亚马逊近日在其购物工具中进一步融合了人工智能，以鼓励消费者增加购买。该公司在周三宣布推出新功能 “兴趣”，旨在打造个性化和对话式的搜索体验。通过这一新功能，用户可以在搜索栏中输入与自身兴趣、偏好甚至预算相关的定制化提示。例如，用户可以搜索 “适合爱好者的模型制作套件及配件” 或 “咖啡爱好者的冲泡工具和小玩意”。“兴趣” 功能利用大型语言模型（LLMs），将日常语言转换为传统搜索引擎可以理解的查询，从而提供更相关的产品建议。此外，该工具会在后

2025年3月27号 10:44

5.5k

亚马逊 Alexa 基金扩展投资范围，青睐人工智能初创企业

亚马逊于2015年成立了 Alexa 基金，最初旨在支持早期语音技术初创企业。随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa+，该基金决定扩展投资范围，更多地关注人工智能初创企业。Alexa 基金负责人保罗・伯纳德表示，随着人工智能的迅速发展，基金的使命已经超越了最初的语音技术，开始投资包括人工智能硬件和智能助手等多个领域。伯纳德指出:“虽然 Alexa 基金的使命已经随着时间的推移而演变，但人工智能的快速发展为我们提供了一个关键的转折点，使基金能够

2025年3月27号 10:01

910

清华大学开源 Video-T1：无需重新训练 AI视频秒变高清大片

近日，清华大学的研究团队开源了其最新的研究成果——Video-T1。这项技术的核心在于测试时缩放（Test-Time Scaling， TTS），旨在通过在视频生成过程的推理阶段投入更多的计算资源，显著提升生成视频的质量和与文本提示的一致性，而无需重新进行昂贵的模型训练。这一创新性的方法为视频生成领域带来了新的可能性。何为“测试时缩放”?在大型语言模型（LLMs）领域，研究人员已经发现，通过在测试阶段增加计算量可以有效提升模型性能。Video-T1借鉴了这一思路，并将其应用于视频生成

2025年3月26号 14:30

4.5k

腾讯“混元-T1”推理模型在基准测试中与 OpenAI 的 o1 能力相匹配

腾讯近日宣布推出其最新的大型语言模型——混元-T1，并表示该模型在推理能力上可与OpenAI的最佳推理系统相匹敌。据腾讯介绍，混元-T1在开发过程中高度依赖强化学习，高达96.7%的训练后算力都用于提升模型的逻辑推理能力以及与人类偏好的一致性。在多项基准测试中，混元-T1展现出强大的性能。在测试14个学科知识的MMLU-PRO评估中，该模型取得了87.2分，仅略低于OpenAI的o1模型。在科学推理方面，浑元-T1在GPQA-diamond测试中获得了69.3分。尤其值得一提的是，腾讯强调混元-T1在数学方面的卓越

2025年3月25号 10:08

1.7k

阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。Qwen2.5-VL-32B 经过强化学习的优化，在多个方面表现出色。首先，它的回答更加符合人类的认知习惯，这意味着用户在与模型互动时，将能获得更自然和流畅的交流体验。其次，这款模型在数学推理能力方面的提升也十分显著。无论是复杂的数学题还是几何体

2025年3月25号 10:03

2.5k

韩国AI芯片初创公司FuriosaAI拒绝Meta 8亿美元收购

据韩国当地媒体报道，专注于人工智能应用芯片研发的初创公司FuriosaAI近日拒绝了科技巨头Meta提出的高达8亿美元的收购要约。FuriosaAI方面表示，将继续专注于自主研发和生产其AI芯片。报道指出，此次收购谈判破裂的主要原因在于收购后双方在业务战略和组织结构方面存在分歧，而非收购价格本身。与众多致力于构建大型语言模型（LLM）的科技公司类似，Meta一直在积极寻求降低对AI芯片巨头英伟达的依赖。英伟达的芯片在LLM的训练和构建领域占据主导地位。为此，Meta去年推出了其定制AI

2025年3月25号 9:00

1.3k

中国AI黑马DeepSeek-V3震撼登场:20令牌/秒运行速度，能否改写AI格局?

中国人工智能初创公司DeepSeek悄然发布了大型语言模型DeepSeek-V3-0324，在人工智能行业引发了震动。该模型以641GB的体量现身于AI资源库Hugging Face，此次发布延续了DeepSeek低调却极具影响力的风格，没有大肆宣传，仅附带空的README文件和模型权重。这款模型采用MIT许可，可免费用于商业用途，且能在消费级硬件——配备M3Ultra芯片的苹果Mac Studio上直接运行。AI研究人员Awni Hannun在社交媒体透露，4位量化版本的DeepSeek-V3-0324在512GB的M3Ultra芯片上，运行速度超20令牌/秒。尽管Mac Studio价格高昂，但能在

2025年3月25号 8:54

3.7k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图