小米发布开源大模型MiMo-V2-Flash,主打高速高效,在推理、代码生成等任务中表现突出,响应速度超越多款热门国产模型。该模型采用稀疏激活架构,参数量达3090亿,以MIT协议开源权重与代码。
蚂蚁集团开源百灵大模型Ring-flash-linear-2.0-128K,专攻超长文本编程。采用混合线性注意力与稀疏MoE架构,仅激活6.1B参数即可媲美40B密集模型,在代码生成和智能代理领域达到最优表现,高效解决长上下文处理痛点。
Radical Numerics发布30B参数开源扩散语言模型RND1-Base,采用稀疏专家混合架构,仅激活3B参数。该模型具备并行生成优势,在基准测试表现优异,并公开完整权重与训练方案,推动扩散模型技术发展。
Liquid AI推出LFM2-8B-A1B模型,采用稀疏激活MoE架构,总参数量8.3B但每token仅激活1.5B参数。该设计在保持高表示能力的同时显著降低计算负载,突破“小规模MoE低效”认知,专为资源受限的边缘设备优化,支持实时交互场景。
Gemma 2 9B和2B模型的稀疏自编码器套件
Alibaba
$4
输入tokens/百万
$16
输出tokens/百万
1k
上下文长度
$2
-
256
Moonshot
Bytedance
$0.8
128
Openai
$0.4
$0.75
64
$1
Tencent
24
Chatglm
$8
32
$0.5
224
$12
28
$6
$18
Baidu
$3
$9
Minimax
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
radicalnumerics
RND1是一个实验性的扩散语言模型,拥有300亿参数,采用稀疏专家混合架构。该模型从预训练的自回归基础模型转换而来,支持基于扩散的文本生成,每个标记仅激活30亿参数,在计算效率和模型容量之间取得平衡。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
Kwai-Klear
Klear是由快手Kwai-Klear团队开发的稀疏混合专家(MoE)大语言模型,具备高性能和推理效率的特点。总参数460亿,激活参数仅25亿,在多个能力基准测试中表现出色,为实际应用提供了高效且强大的解决方案。
openbmb
MiniCPM-S-1B-sft 是一个基于激活稀疏化技术优化的1B参数规模语言模型,通过ProSparse方法实现高稀疏性推理加速,同时保持与原始模型相当的性能。
玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型,总参数量17.1B,激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理,在推理过程中具备近线性计算复杂度与近恒定空间复杂度。
SparseLLM
基于LLaMA-2-7B的激活稀疏化大语言模型,通过ProSparse方法实现高稀疏率(89.32%)且保持原始性能
LanguageBind
MoE-LLaVA是一种基于专家混合架构的大型视觉语言模型,通过稀疏激活参数实现高效的多模态学习
MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型,通过稀疏激活参数实现高效的多模态学习。
该研究探索了稀疏大语言模型中最有效的激活函数,比较了ReLU、SwiGLU、ReGLU和平方ReLU四种激活函数在稀疏计算效率上的表现。
基于Llama 2 7B微调的ReLU激活稀疏大语言模型,通过动态参数选择提升计算效率