DeepGEMM

DeepGEMM是一个用于高效FP8矩阵乘法的CUDA库,支持细粒度缩放和多种优化技术。

优质新品其他深度学习矩阵乘法
DeepGEMM是一个专注于高效FP8矩阵乘法的CUDA库。它通过细粒度缩放和多种优化技术,如Hopper TMA特性、持久化线程专业化、全JIT设计等,显著提升了矩阵运算的性能。该库主要面向深度学习和高性能计算领域,适用于需要高效矩阵运算的场景。它支持NVIDIA Hopper架构的Tensor Core,并且在多种矩阵形状下展现出卓越的性能。DeepGEMM的设计简洁,核心代码仅约300行,易于学习和使用,同时性能与专家优化的库相当或更好。开源免费的特性使其成为研究人员和开发者进行深度学习优化和开发的理想选择。
打开网站

DeepGEMM 最新流量情况

月总访问量

502571820

跳出率

37.10%

平均页面访问数

5.9

平均访问时长

00:06:29

DeepGEMM 访问量趋势

DeepGEMM 访问地理位置分布

DeepGEMM 流量来源

DeepGEMM 替代品