MInference 1.0

加速长上下文大型语言模型的预填充处理

普通产品编程自然语言处理机器学习
MInference 1.0 是一种稀疏计算方法,旨在加速长序列处理的预填充阶段。它通过识别长上下文注意力矩阵中的三种独特模式,实现了对长上下文大型语言模型(LLMs)的动态稀疏注意力方法,加速了1M token提示的预填充阶段,同时保持了LLMs的能力,尤其是检索能力。
打开网站

MInference 1.0 替代品