MInference 1.0

加速长上下文大型语言模型的预填充处理

普通产品编程自然语言处理机器学习
MInference 1.0 是一种稀疏计算方法,旨在加速长序列处理的预填充阶段。它通过识别长上下文注意力矩阵中的三种独特模式,实现了对长上下文大型语言模型(LLMs)的动态稀疏注意力方法,加速了1M token提示的预填充阶段,同时保持了LLMs的能力,尤其是检索能力。
打开网站

MInference 1.0 最新流量情况

月总访问量

690

跳出率

39.63%

平均页面访问数

2.2

平均访问时长

00:01:19

MInference 1.0 访问量趋势

MInference 1.0 访问地理位置分布

MInference 1.0 流量来源

MInference 1.0 替代品