国家自然科学基金(61272085)
- 作品数:5 被引量:8H指数:2
- 相关作者:邓仰东穆帅王晨曦李怀明王皛更多>>
- 相关机构:清华大学中国科学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于PCM的GPU存储系统设计与优化
- 2013年
- 以相变存储器(PCM)为代表的新型非易失存储器,具有存储密度高和静态功耗低等传统动态随机存取存储器(DRAM)不具备的优势,但是过长的写操作延时会严重影响访存的性能。设计了基于PCM的图形处理器(GPU)中的存储系统。仿真结果显示,GPU程序中的内存写请求分布极不均匀,对少量的内存地址有非常高的访问频率。面向访存分布不均匀特点的专用缓冲单元设计,能够有效地存储频繁访问的内存数据,从而减少对PCM的访问次数,消除过长的写操作延时对系统性能的负面影响。GPU仿真器上的结果显示,基于缓冲单元的PCM存储系统能够有效地提高GPU的运算性能。
- 穆帅单书畅邓仰东王志华
- 关键词:相变存储器图形处理器
- 基于图形处理器的高性能跳表(Skiplist)数据结构被引量:2
- 2014年
- 提出了一种高效率、适合GPU的跳表结构及其相应例程,核心思想是将包含指针的操作转化为数组操作,从而充分发挥GPU的计算能力.实验结果证明,该数据结构的插入和删除操作相对目前最好的GPU结果分别改善6.8倍和9.6倍.
- 李怀明邓仰东
- 关键词:图形处理器
- 全流水线化光线追踪KD-Tree遍历单元硬件架构被引量:2
- 2014年
- 在提出引入restart遍历算法的基础上,构造流水线处理机制,使得硬件架构可以实现整个遍历和相交测试流程模块间(粗粒度)和模块内部(细粒度)完全流水线化.同时,也改进了光线-图元相交测试的浮点算法,能够减少浮点运算单元个数.实验结果在FPGA验证中实现了每秒约处理8千万条光线的能力(100MHz工作时钟).
- 王皛邓仰东
- 关键词:光线追踪KD-TREE
- 基于GPU的多层次并行QR分解算法研究被引量:4
- 2013年
- QR分解作为一个基本计算模块,广泛应用在图像处理、信号处理、通信工程等众多领域。传统的并行QR分解算法只能挖掘计算过程中的数据级并行。在分析快速Givens Rotation分解特征的基础上,提出了一种多层次并行算法,能够同时挖掘计算过程中的任务级并行和数据级并行,非常适合于以图形处理器(GPU)为代表的大规模并行处理器。同时,采用GPU的并行QR分解算法可以作为基本运算模块被GPU平台上的众多应用程序直接调用。实验结果显示,与CPU平台上使用OpenMP实现的算法相比,基于GPU的多层次并行算法能够获得5倍以上的性能提升,而调用QR分解模块的奇异值分解(SVD)应用可以获得3倍以上的性能提升。
- 穆帅王晨曦邓仰东
- 关键词:图形处理器
- 基于GPU的语义松弛非阻塞并行队列研究
- 2015年
- 近年来,基于图形处理器GPU的通用计算逐渐成为主流计算模式。为了降低GPU程序设计的难度,提出一种适合于GPU体系结构的非阻塞并行队列数据结构。通过对并行队列进行语义松弛,该数据结构能够有效利用队列操作的并行性。同时,还提出了高速并行队列插入和删除算法。使用线性化准则对该并行队列的正确性进行验证。实验表明,所提出的并发队列能够达到远高于目前多核CPU和GPU并行队列的性能,分别超越现有最好结果 20倍和200倍以上。
- 张翔宇邓仰东
- 关键词:队列非阻塞图形处理器