Efficient LLM

高效的 Intel GPU 上的 LLM 推理解决方案

普通产品生产力LLM推理
这是一种在 Intel GPU 上实现的高效的 LLM 推理解决方案。通过简化 LLM 解码器层、使用分段 KV 缓存策略和自定义的 Scaled-Dot-Product-Attention 内核,该解决方案在 Intel GPU 上相比标准的 HuggingFace 实现可实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。详细功能、优势、定价和定位等信息请参考官方网站。
打开网站

Efficient LLM 最新流量情况

月总访问量

17104189

跳出率

44.67%

平均页面访问数

5.5

平均访问时长

00:05:49

Efficient LLM 访问量趋势

Efficient LLM 访问地理位置分布

Efficient LLM 流量来源

Efficient LLM 替代品