您的位置: 专家智库 > >

郭松

作品数:13 被引量:16H指数:2
供职机构:国防科学技术大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家教育部博士点基金更多>>
相关领域:自动化与计算机技术生物学航空宇航科学技术兵器科学与技术更多>>

文献类型

  • 4篇期刊文章
  • 4篇会议论文
  • 2篇学位论文
  • 2篇专利

领域

  • 8篇自动化与计算...
  • 1篇生物学
  • 1篇航空宇航科学...
  • 1篇军事
  • 1篇理学
  • 1篇兵器科学与技...

主题

  • 4篇硬件
  • 4篇硬件加速
  • 4篇硬件加速器
  • 3篇基于FPGA
  • 3篇加速器
  • 3篇浮点
  • 3篇LU分解
  • 2篇地址寄存器
  • 2篇尾数
  • 2篇向量
  • 2篇累加器
  • 2篇寄存器
  • 2篇FPGA
  • 2篇超长指令字
  • 2篇存储体
  • 1篇蛋白
  • 1篇蛋白质
  • 1篇蛋白质二级结...
  • 1篇调度
  • 1篇定制

机构

  • 12篇国防科学技术...

作者

  • 12篇郭松
  • 9篇窦勇
  • 7篇雷元武
  • 3篇雷国庆
  • 2篇李鑫
  • 1篇邬贵明

传媒

  • 2篇计算机工程与...
  • 1篇计算机学报
  • 1篇计算机科学
  • 1篇2009年全...
  • 1篇2010年全...
  • 1篇第十四届计算...

年份

  • 2篇2015
  • 3篇2012
  • 1篇2011
  • 4篇2010
  • 2篇2009
13 条 记 录,以下是 1-10
排序方式:
海洋环流数值模式POP的GPU并行优化被引量:3
2012年
POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。
郭松窦勇雷元武
关键词:CUDAGPUCUDAFORTRAN
基于FPGA的高精度科学计算加速器研究被引量:10
2012年
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗.
雷元武窦勇郭松
关键词:LU分解FPGA硬件加速器
基于FPGA的蛋白质二级结构预测算法加速器研究
面向蛋白质二级结构预测领域,基于FPGA平台设计了一种细粒度的GOR算法加速器,采用多端口并行查询策略同时获取当前中心残基计算窗口中的所有信息值;使用流水线的计算方式有效提高了并行效率.在单片FPGA上的实验结果表明,与...
雷国庆窦勇郭松
关键词:生物信息学蛋白质二级结构细粒度并行硬件加速器FPGA
文献传递
基于全展开的全流水128位精度浮点累加器
本发明公开了一种基于全展开的全流水128位精度浮点累加器,要解决的主要技术问题是提供一种实现无精度损失累加的累加器。本发明由全展开浮点累加模块和规格化模块组成,全展开浮点累加模块由尾数加法模块、存储模块和快速进位模块组成...
窦勇雷元武郭松
面向空间目标轨道预测的定制处理器及其编译器的关键技术研究
空间目标的轨道预测是一种根据空间目标的运动特征利用一定的数学模型预测空间目标在未来一段时间内的运行轨迹的技术。它是对空间目标进行实时监测、碰撞预警、武器攻击等应用的基础,在航天和军事等领域有着广泛的应用。 空间目标轨道预...
郭松
关键词:超长指令字指令调度
基于高精度乘累加的LU分解加速器的设计
本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分...
雷元武窦勇郭松李鑫雷国庆
文献传递
基于FPGA的蛋白质三级结构预测算法加速器研究
在蛋白质三级结构预测领域,基于蛋白质采样信息的结构预测方法是一种应用比较成功的方法,但是随着蛋白质数据库的增大,对计算能力的需求也越来越高,限制了这种方法的使用。随着FPGA芯片资源和计算能力的不断提高,基于FPGA芯片...
GUO Song郭松DOU Yong窦勇LEI Guo-Qing雷国庆LEI Yuan-Wu雷元武
关键词:蛋白质硬件加速器现场可编程门阵列
面向定制结构的稀疏矩阵分块方法被引量:1
2015年
稀疏矩阵向量乘是科学计算的核心问题,采用定制结构来加速稀疏矩阵向量乘的执行对提升科学计算性能具有重要意义。针对目前面向定制结构的稀疏矩阵分块方法和表示方法的缺点,提出了稀疏矩阵二维均匀分块方法和相应的表示方法嵌套分块CSR。实验结果表明,提出的稀疏矩阵分块方法和表示方法能够有效减少填零个数。
邬贵明王淼谢向辉窦勇郭松
关键词:稀疏矩阵向量乘数据分块
基于全展开的全流水128位精度浮点累加器
本发明公开了一种基于全展开的全流水128位精度浮点累加器,要解决的主要技术问题是提供一种实现无精度损失累加的累加器。本发明由全展开浮点累加模块和规格化模块组成,全展开浮点累加模块由尾数加法模块、存储模块和快速进位模块组成...
窦勇雷元武郭松
文献传递
面向稀疏矩阵运算的异构并行算法研究
异构高性能体系结构已经成为高性能计算领域越来越流行的一种架构,极大的推动着当今社会大规模科学与工程领域计算的进步。稀疏矩阵运算是大规模科学与工程领域计算的非常重要的一种操作,但是由于稀疏矩阵运算是一种典型的不规则运算,严...
郭松
关键词:并行计算
文献传递
共2页<12>
聚类工具0