您的位置: 专家智库 > >

龙国平

作品数:6 被引量:9H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇专利
  • 2篇期刊文章

领域

  • 2篇自动化与计算...

主题

  • 4篇处理器
  • 2篇队列
  • 2篇译码
  • 2篇指令流
  • 2篇索引
  • 2篇体系结构
  • 2篇子集
  • 2篇微码
  • 2篇内存
  • 2篇缓存
  • 1篇延迟容忍
  • 1篇一致性
  • 1篇硬件
  • 1篇硬件支持
  • 1篇语言
  • 1篇评测
  • 1篇编程
  • 1篇编程模型
  • 1篇TV1
  • 1篇DSO

机构

  • 6篇中国科学院

作者

  • 6篇范东睿
  • 6篇龙国平
  • 4篇袁楠
  • 2篇张浩
  • 1篇张军超

传媒

  • 2篇计算机学报

年份

  • 3篇2009
  • 3篇2008
6 条 记 录,以下是 1-6
排序方式:
基于局部相联查找的解决访存相关的方法和处理器
本发明涉及一种新的基于局部相联查找解决访存相关的方法,包括:一种局部相联查找机制,即当一个取数指令进入访存队列时,只需要向前访存队列的一个子集,看是否可以从查询过的存数指令那里获得最新版本的值,同理当一个存数指令进入访存...
龙国平范东睿袁楠张浩
文献传递
基于局部相联查找的解决访存相关的方法和处理器
本发明涉及一种新的基于局部相联查找解决访存相关的方法,包括:一种局部相联查找机制,即当一个取数指令进入访存队列时,只需要向前访存队列的一个子集,看是否可以从查询过的存数指令那里获得最新版本的值,同理当一个存数指令进入访存...
龙国平范东睿袁楠张浩
文献传递
复杂指令系统中TLBR内部例外的处理方法和处理器
根据本发明,提出了一种复杂指令系统中TLBR内部例外的处理方法,包括:从内存中获取复杂指令流,对指令流进行长度划分和基本译码;缓存指令流中的复杂指令及所述复杂指令的长度及部分译码信息;根据缓存的复杂指令及所述复杂指令的长...
龙国平袁楠范东睿
文献传递
复杂指令系统中TLBR内部例外的处理方法和处理器
根据本发明,提出了一种复杂指令系统中TLBR内部例外的处理方法,包括:从内存中获取复杂指令流,对指令流进行长度划分和基本译码;缓存指令流中的复杂指令及所述复杂指令的长度及部分译码信息;根据缓存的复杂指令及所述复杂指令的长...
龙国平袁楠范东睿
文献传递
众核体系结构对Cilk语言的硬件支持及评测研究被引量:7
2008年
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽.
龙国平张军超范东睿
关键词:编程模型
LU分解在Godson-Tv1众核体系结构上的并行化研究被引量:2
2009年
随着集成电路工艺的发展,众核体系结构成为人们日益关注的计算平台.LU分解是科学和工程计算中被广泛使用的核心算法之一,尽管在传统的并行体系结构上已有大量的并行化研究工作,但是结合新型众核体系结构特征的工作还不多.文章从负载均衡、延迟容忍和性能分析模型3个方面系统研究了LU分解在众核体系结构上的并行化问题.该文的贡献在于:首先,针对二维卷帘负载分配方案难以达到良好负载均衡的缺点,提出一种新的"之"字形分配方案,实验表明不经任何优化的情况下性能比前者提高20%,优化后达到了40%;其次,提出了一个性能加速比的分析模型,并用实验定量研究了实测性能加速比和理论值之间的差距,发现在合理利用片上存储优化访存延迟,并恰当选择矩阵分块参数的情况下,实测加速效果能比较接近理论值;通过实验还证明实测性能难以达到理论预测值的两个主要原因:访存带宽有限和片上网络的资源竞争.
龙国平范东睿
关键词:LU分解并行化延迟容忍
共1页<1>
聚类工具0