zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2025-02-24 10:18:41
.
AIbase
.
15.6k
DeepSeek 开源周首日:发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s
DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。在性能表现方面,基于CUDA12.6平台,FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度,在计算受限场景下则实现580TFLOPS的算力