江霞
- 作品数:5 被引量:6H指数:1
- 供职机构:中国科学技术大学更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法
- 本发明公开了一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法,包括:(1)获取矩阵A中行非零元个数最大值a,处理器SIMD单元可同时计算的非零元个数b,计算大于a且为b的倍数的最小值作为临时行宽度;(2)对矩...
- 韩文廷张爱民江霞安虹陈俊仕孙荪汪朝辉
- 基于Intel Xeon Phi的稀疏矩阵向量乘性能优化被引量:1
- 2016年
- 稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的体系结构特点,提出了一种通用的分块压缩存储表示的稀疏矩阵向量乘并行算法:(1)在ELLPACK存储格式基础上按列分块及压缩矩阵,增加非零元的密度,提高SIMD利用率;(2)通过精心的数据重排,保留矩阵非零元本身的局部性,从而提高数据重用率,降低访存开销;(3)将矩阵压缩后划分成近似等大的矩阵块并静态等量分配到不同核上计算,使各核负载均衡.实验结果表明,与Intel Xeon Phi上已有的MKL数学库中的CSR算法相比,本算法获得了更高的计算访存比,性能比M KL的CSR算法平均快2.05倍.
- 张爱民安虹姚文军梁伟浩江霞李丰
- 关键词:稀疏矩阵向量乘INTELXEONPHI
- OpenACC到MIC平台上并行程序的自动翻译及优化被引量:5
- 2016年
- 随着异构系统在高性能计算领域的流行,各种为异构平台设计的编程模型被提出,比如CUDA、Open CL等,而这些原生的编程模型存在着编程复杂、优化困难和可移植性差等问题.Open ACC标准通过添加编译制导语句指示编译器将相关的代码段或循环卸载到加速器上执行,可以解决这些问题.本文设计并实现了Open ACC到MIC平台上并行程序的自动翻译工具,从而实现了Open ACC对Intel MIC协处理器的支持.同时采取了数据传输优化方法对翻译后的代码进行了优化.实验采用完整的NPB测试包,实验结果表明,我们的翻译工具能够百分之百完成测试程序的翻译,并且针对不同规模的数据集翻译后的Offload代码的性能分别能够达到手工优化的Offload代码性能的74%,76%,80%.
- 江霞安虹梁伟浩张爱民李丰
- 关键词:异构系统OPENACCMIC自动翻译
- Intel多核/众核平台上OpenACC的源到源翻译器
- 由于具有不同的结构特点,使得通用CPU和加速器组成的异构系统能够更有效的处理通用计算任务。典型的加速器有NVIDIA GPU、AMD GPU、Intel XeonPhi协处理器,它们对应的编程模型分别为CUDA、Open...
- 江霞
- 关键词:编程效率
- 文献传递
- 一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法
- 本发明公开了一种带多级Cache的SIMD众核处理器上的稀疏矩阵存储方法,包括:(1)获取矩阵A中行非零元个数最大值a,处理器SIMD单元可同时计算的非零元个数b,计算大于a且为b的倍数的最小值作为临时行宽度;(2)对矩...
- 韩文廷张爱民江霞安虹陈俊仕孙荪汪朝辉
- 文献传递