DeepSeek R1来袭，Meta 高管都慌了

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年1月24号 16:46

333

近日，Meta 的工程师们在匿名社交平台 TeamBlind 上吐露心声，揭示了中国公司 DeepSeek 所研发的 AI 模型 R1所带来的巨大压力。DeepSeek 被认为是全球首个与 OpenAI 的 o1模型相提并论的开源 AI 模型，而与 OpenAI 相比，R1不仅开源程度更高，而且训练成本低得惊人，仅为550万美元。

相比之下，Meta 的高管年薪常常超过整个 DeepSeek V3的训练成本，这使得 Meta 的管理层倍感尴尬。

据内部消息透露，DeepSeek V3的出现已在去年令 Meta 感受到不小的压力。Meta 的工程师们正在加紧时间，努力分析 DeepSeek 的技术，希望能够尽快复制其中的关键技术。过去，全球的 AI 研究者们都在追逐美国的大模型，而如今，局势发生了变化，美国工程师们开始逆向工程中国的 AI 技术。

DeepSeek 不仅在基准测试中超过了 Meta 的 Llama4，而且在多个领域的表现上也令业界瞩目。DeepSeek 通过大规模强化学习（RL）和未经过监督微调(SFT)等技术，实现了极高的推理性能。这种技术自信让美国的部分网友开始反思中国在 AI 领域的迅速崛起。

划重点:
🌟 DeepSeek R1模型的训练成本仅为550万美元，性能可与 OpenAI 的 o1相媲美。
👨‍💻 Meta 的高管薪资超过 DeepSeek 的训练成本，管理层对此感到压力巨大。
📈 DeepSeek 的成功引发了美国科技公司的恐慌，挑战了美国在 AI 领域的主导地位。

QQ音乐推出"AI音乐播客"创新功能：可以边听边懂边互动

QQ音乐近日推出了首创性的"AI音乐播客"技术功能，这一突破性技术将人工智能技术与播客形式深度融入音乐场景，通过Deepseek以及自研的琴语TTS大模型、文曲大模型等领先AI技术与多模态内容整合，为用户创造"边听歌边解读"的沉浸式体验，以技术手段进一步构建音乐新生态。这项创新功能的核心在于三大引擎技术的深度融合，构建了从内容生成到情感传递的完整AI音乐生态链。首先，利用DeepSeek语义引擎通过深度学习精准解析歌曲创作故事、文化背景与情感脉络，结合歌手经历、时代背景及

前 OpenAI 政策负责人质疑公司 AI 安全叙事的变更

最近，前 OpenAI 政策研究负责人迈尔斯・布伦达奇（Miles Brundage）对公司在人工智能安全方面的叙事变更提出了批评，认为 OpenAI 正在重新编写其 AI 系统安全的历史。他表示，OpenAI 在追求通用人工智能(AGI)的过程中，可能会忽视长远的安全措施。OpenAI 一直以来致力于推动其雄心勃勃的愿景，尤其是在 DeepSeek 等竞争对手日益崛起的背景下。公司在追求 AGI 发展的过程中，频繁强调超级人工智能代理的潜力，然而，这种态度并未获得广泛的认可。布伦达奇认为，OpenAI 在与其现有的 AI 模型的部署

DeepSeek的MLA架构：大模型迁移的新突破

在人工智能领域，DeepSeek-R1的推出引发了广泛关注，这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络（Multi-head Latent Attention，MLA）架构，借助低秩压缩技术显著降低了训练与推理的成本，甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成，目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构，而无需重新从头开始训练。目前，主流大模型普遍基于标准的多头注意力机制（MHA）及其变种，这些模型在推理成本上相较于 MLA

Light-R1-32B:低成本高性能的数学解题新星闪耀登场

2025年3月6日，一款名为 **Light-R1-32B** 的全新语言模型正式亮相。这款基于 **Qwen2.5-32B-Instruct** 模型打造的数学解题利器，经过特别训练，以其卓越的数学解题能力、低廉的训练成本以及可复现性，成为人工智能领域的一大亮点。开发团队xAI表示，Light-R1-32B不仅在性能上超越同类模型，还为学术研究和实际应用提供了极具价值的参考。卓越的数学解题能力Light-R1-32B 的核心优势在于其出色的数学解题表现。在 **AIME24** 和 **AIME25** 等权威数学竞赛测试中，该模型展现了比 **DeepSeek-R1-Distill-Qwen-32B*