MiniMax-01
强大的语言模型,拥有4560亿总参数,可处理长达400万token的上下文。
普通产品编程语言模型深度学习
MiniMax-01是一个具有4560亿总参数的强大语言模型,其中每个token激活459亿参数。它采用混合架构,结合了闪电注意力、softmax注意力和专家混合(MoE),通过先进的并行策略和创新的计算-通信重叠方法,如线性注意力序列并行主义加(LASP+)、varlen环形注意力、专家张量并行(ETP)等,将训练上下文长度扩展到100万tokens,在推理时可处理长达400万tokens的上下文。在多个学术基准测试中,MiniMax-01展现了顶级模型的性能。
MiniMax-01 最新流量情况
月总访问量
490881889
跳出率
37.92%
平均页面访问数
5.6
平均访问时长
00:06:18