公共文化服务平台

刘谷: 作品数：10 被引量：9H指数：2; 供职机构：中国科学技术大学计算机科学与技术学院更多>>; 发文基金：国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>; 相关领域：自动化与计算机技术更多>>

合作作者

图广度优先搜索算法面向图形处理器的优化方法研究被引量：2: 2014年; 近年来,图形处理器(GPU)以其丰富的计算资源和低廉的成本逐渐在高性能计算领域取得一席之地,对于具有规则访存特性的并行程序具有明显的加速作用.但是以图广度优先搜索(BFS)算法为代表的某些不规则应用,在图形处理器上性能表现平平.为了解决不规则程序在图形处理器上的性能瓶颈问题必须分析其行为特征,面向特定体系结构提出有针对性的程序优化方法.本文通过分析图广度优先搜索算法的在GPU上的并行性模式,访存特性以及工作负载,提出了基于并行性剖析与反馈的计算资源重配置方法,动态队列的层次优化方法,以及线程级负载平衡方法.实验表明以上优化方法能够显著提高图广度优先搜索算法为代表的不规则程序在GPU上的性能.; 刘谷安虹李小强吴石磊; 关键词：图形处理器

超长指令字程序的二进制翻译方法: 本发明的实施例提出了一种超长指令字程序的二进制翻译方法，包括以下步骤：对程序中的超长指令字进行指令解码；还原所述程序中的控制流图以及数据流图；重建类数据流计算模型下的控制流图与数据流图；对所述程序进行超长指令字程序的二进...; 安虹刘谷徐光许牧李小强韩文廷张倩刘玉

一种单指令多数据流结构上的数据处理方法及处理器: 本发明公开了一种SIMD上的数据处理方法及处理器，包括：选取符合条件的处理多组数据流，指令具有包括标记位和索引位的谓词域；将指令进行译码，并获取标记位和索引位的值；利用标记位的值判断指令是否为谓词指令；当指令为谓词指令时...; 安虹许牧徐光刘谷李颀任永青李小强孙涛郝秀蕊周伟谭旭

可重构众核流处理器上的编译与程序优化技术: 半导体工艺的持续进步和流编程模型的提出是推动众核流处理器体系结构向前发展的两个重要因素。为了充分利用摩尔定律发展带来的丰富廉价的晶体管资源，片上多处理器已经成为工业界所接受的新一代处理器体系结构的解决方案之一。另一方面，...; 刘谷; 关键词：流编程模型

组网雷达估测降水系统并行化方案的设计与实现被引量：5: 2012年; 国家气象局天气组网雷达定量估测降水系统不仅拥有较大的计算量,而且具有较大的数据吞吐量,同时对实时性要求较高。如果缩短其执行时间,无疑将会带来巨大的收益。鉴于这些特点,使用VTune Amplifer XE对串行程序进行了热点分析和并行性分析,得出程序中有较多线程级并行性,从而制定了相应的并行化方案;然后使用Win32多线程和OpenMP两种技术对该程序在Intel四核处理器平台上进行了并行化。程序主要由单站处理和组网处理两部分组成。由于计算资源的限制,并行后的单站处理程序只有大约10%的性能提升,而组网处理程序则可以达到近似线性的性能提升。通过调整计算负载,并行化版本的加速比可以达到5.5。最后,可以得出该并行化方法适用于计算密集且数据吞吐量较大的一类应用。; 吴石磊安虹李小强周伟刘谷魏学超; 关键词：并行性分析 OPENMP

一种输入感知的雷达回波快速聚类实现: 2012年; 聚类算法作为数据挖掘中的经典算法,在雷达回波的数据分析中经常被采用。然而对于规模和维度都较大的输入数据集,算法十分耗时。很多研究虽然对聚类算法进行了GPU平台的并行和优化的工作,但都忽略了输入数据集对优化的影响。因此,提出了在GPU/CUDA平台上的一种新颖的雷达快速聚类实现。该实现通过运行时的方式对输入的回波数据进行观察,以获取数据的分布信息,用以指导聚类计算在GPU上执行时的线程块调度。而该运行时模块本身的开销非常小。实验表明,引入这种输入感知的运行时调度支持后,大大削减了GPU的计算负载,获得了相对于一般策略的CUDA实现的20%～40%的性能提升,加强了算法的实时性能。; 周伟安虹刘谷李小强吴石磊; 关键词：聚类算法图形处理器统一计算设备架构

超长指令字程序的二进制翻译方法: 本发明的实施例提出了一种超长指令字程序的二进制翻译方法，包括以下步骤：对程序中的超长指令字进行指令解码；还原所述程序中的控制流图以及数据流图；重建类数据流计算模型下的控制流图与数据流图；对所述程序进行超长指令字程序的二进...; 安虹刘谷徐光许牧李小强韩文廷张倩刘玉; 文献传递

一种单指令多数据流结构上的数据处理方法及处理器: 本发明公开了一种SIMD上的数据处理方法及处理器，包括：选取符合条件的处理多组数据流，指令具有包括标记位和索引位的谓词域；将指令进行译码，并获取标记位和索引位的值；利用标记位的值判断指令是否为谓词指令；当指令为谓词指令时...; 安虹许牧徐光刘谷李颀任永青李小强孙涛郝秀蕊周伟谭旭; 文献传递

基于主辅数据结构的CPU-GPU合作计算方法: 本发明的实施例提出了一种基于主辅数据结构的CPU-GPU合作计算方法，包括以下步骤：根据处理的对象，确定主辅数据内容并进行初始化；启动CPU计算线程和GPU计算线程；读入待处理的数据，经过预处理后存储至主辅数据结构中，同...; 安虹姚平刘谷徐光许牧李小强韩文廷张倩徐恒阳; 文献传递

一种类数据流驱动的分片式流处理器体系结构及其编程模型被引量：1: 2010年; 考虑到半导体工艺发展带来的线延迟问题,分布式、分片式的处理器结构变得很有吸引力.在传统流处理器中,流控制器发射的控制信号在传递时存在长线延迟问题.传统流处理器的运算簇由众多的功能部件组成,由于运算簇间的通信是集中控制的,运算簇间通信网络的线延迟可扩展性差.提出了一种分片式流处理器(TPA-PD)体系结构,它采用分布式的网络连接分片式的部件,避免了控制信号在传递过程中出现的长线延迟问题.在kernel级,TPA-PD使用类数据流的执行模型即显式数据流图执行,将指令间的依赖关系在指令中静态编码,把传统流处理器中运算簇间的集中通信变为动态发射、分布式的通信,利于结构扩展.解释了新的执行模型、指令集以及将流编程模型映射到新结构上.在时钟精确的模拟器上,实验分析了影响kernel级执行时间的软硬件因素,TPA-PD比传统流处理器在8个benchmark中平均获得了20%的加速比.; 徐光安虹许牧刘谷姚平任永青汪芳; 关键词：流处理器处理器结构