MInference

加速长上下文大型语言模型的推理过程

优质新品编程大型语言模型推理加速
MInference是一个针对长上下文大型语言模型(LLMs)的推理加速框架。它利用了LLMs注意力机制中的动态稀疏特性,通过静态模式识别和在线稀疏索引近似计算,显著提升了预填充(pre-filling)的速度,实现了在单个A100 GPU上处理1M上下文的10倍加速,同时保持了推理的准确性。
打开网站

MInference 最新流量情况

月总访问量

515580771

跳出率

37.20%

平均页面访问数

5.8

平均访问时长

00:06:42

MInference 访问量趋势

MInference 访问地理位置分布

MInference 流量来源

MInference 替代品