最好的稀疏激活 AI工具模型_精选稀疏激活资讯

AI资讯

扩散模型新突破：Radical Numerics开源30B参数RND1，AI自我进化迈出关键一步

Radical Numerics发布30B参数开源扩散语言模型RND1-Base，采用稀疏专家混合架构，仅激活3B参数。该模型具备并行生成优势，在基准测试表现优异，并公开完整权重与训练方案，推动扩散模型技术发展。

Liquid AI发布 LFM2-8B-A1B：8B 参数仅激活1.5B，手机上跑出4B级AI速度！

Liquid AI推出LFM2-8B-A1B模型，采用稀疏激活MoE架构，总参数量8.3B但每token仅激活1.5B参数。该设计在保持高表示能力的同时显著降低计算负载，突破“小规模MoE低效”认知，专为资源受限的边缘设备优化，支持实时交互场景。

15.2k 4 小时前

Liquid AI发布 LFM2-8B-A1B：8B 参数仅激活1.5B，手机上跑出4B级AI速度！

百度文心新模型ERNIE-4.5-21B-A3B-Thinking强势登顶Hugging Face榜首

近日，百度旗下文心大模型家族迎来重大升级——ERNIE-4.5-21B-A3B-Thinking正式开源，并在Hugging Face平台迅速登顶文本生成模型榜单首位，同时位居整体模型榜第三。这款轻量级Mixture-of-Experts（MoE）模型以其卓越的推理能力和参数效率，引发行业广泛关注，标志着中国AI开源生态的又一里程碑。模型核心规格与创新设计ERNIE-4.5-21B-A3B-Thinking采用先进的MoE架构，总参数规模为21B，但每个token仅激活3B参数。这种稀疏激活机制显著降低了计算开销，同时保持了高性能输出。该模型支持128K长上下文窗口

12.9k 5 天前

DeepSeek开源周第六天：极致推理优化系统，提高GPU计算效率

在人工智能（AI）技术快速发展的今天，DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。这一系统旨在通过更高的吞吐量和更低的延迟，推动 AGI(通用人工智能)的高效发展。为了实现这一目标，DeepSeek 采用了跨节点专家并行(Expert Parallelism，EP)技术，显著提高了 GPU 的计算效率，并在降低延迟的同时，扩展了批处理规模。DeepSeek-V3/R1的核心在于其极高的稀疏性，模型中每层仅激活256个专家中的8个，因此需要非常大的批处理大小，以确保每个专家都有足够的处理能力。该系统的架构采用了预

16.9k 昨天