您的位置: 专家智库 > >

张军超

作品数:9 被引量:31H指数:4
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 9篇中文期刊文章

领域

  • 9篇自动化与计算...

主题

  • 2篇调度
  • 2篇硬件
  • 2篇寄存器
  • 1篇代码
  • 1篇调度算法
  • 1篇性能分析
  • 1篇一致性
  • 1篇隐式
  • 1篇硬件支持
  • 1篇语言
  • 1篇指令调度
  • 1篇任务调度
  • 1篇任务调度算法
  • 1篇软硬件
  • 1篇数据冲突
  • 1篇体系结构
  • 1篇评测
  • 1篇重命名
  • 1篇网络
  • 1篇网络处理

机构

  • 9篇中国科学院
  • 2篇中国科学院研...

作者

  • 9篇张军超
  • 4篇张兆庆
  • 2篇范东睿
  • 2篇冯晓兵
  • 2篇梁珊珊
  • 1篇吴佳骏
  • 1篇马湘宁
  • 1篇张帅
  • 1篇余磊
  • 1篇连瑞琦
  • 1篇张浩
  • 1篇宋风龙
  • 1篇刘志勇
  • 1篇周永彬
  • 1篇龙国平

传媒

  • 4篇计算机学报
  • 3篇计算机工程
  • 1篇小型微型计算...
  • 1篇计算机科学

年份

  • 2篇2009
  • 2篇2008
  • 1篇2007
  • 1篇2006
  • 2篇2005
  • 1篇2004
9 条 记 录,以下是 1-9
排序方式:
一种片上众核结构共享Cache动态隐式隔离机制研究被引量:4
2009年
访存带宽是限制众核处理器性能提升的关键,将片上最后一级Cache设计为所有处理器核共享是必要的.在共享Cache中隔离放置冲突的数据,是提高共享Cache性能的关键.文中提出了缓存块链接的硬件方法,用于隔离共享Cache中不同线程之间的数据.文中基于时钟精准的片上众核结构模拟器,使用Splash2程序组和生物信息学中的任务,对所提机制进行了评估.实验结果表明,与传统共享Cache相比,使用缓存块链接机制时,使得共享Cache的冲突性缺失率降低约20%,而使得IPC平均提高了约10%.
宋风龙刘志勇范东睿张军超余磊
关键词:共享CACHE数据冲突
CCTD:一种通信限制下的Fork-Join任务调度算法被引量:2
2009年
现代并行系统的复杂调度问题可以转化为Fork-join图的任务调度问题。然而在实际计算环境中,两个处理节点之间的通信大多以独占方式进行,现有的大多数任务调度算法往往忽略了对通信信道独占性的考虑。提出了一种带通信限制的Fork-join图调度算法CCTD。该算法引入了实际环境中的通信独占性限制,同时保证了Fork-join图的基于复制的优化调度,而且尽可能地减少了对处理器占用。实验结果表明,CCTD算法是一种适应性强的、高效的Fork-join图调度算法。
梁珊珊吴佳骏张军超
关键词:任务调度
汇编代码中的热路径搜寻工具
2005年
介绍并实现了一种热路径搜索算法,它能在汇编代码中搜寻出执行频率最高的若干条路径。编译器开发人员可以专注精力分析热路径上的代码,大大节省了工作量。该工具配合ORC编译器的开发,为改善性能做出了重要贡献。
张军超张兆庆
关键词:汇编代码编译器性能分析
Bitran二进制翻译实验系统的设计和实现被引量:4
2004年
对处理器速度的追求促使体系结构不断发展 ,但是软件的支持却不能与其匹配 ,造成新体系结构推广的困难 ,研究、解决代码迁移问题的二进制翻译方法应运而生 .介绍作者参与开发的一个静态二进制翻译实验系统的框架设计 ,并详细介绍框架中各个部分的实现方法 ,最后给出该翻译系统的实验数据和分析 .
马湘宁张兆庆张军超冯晓兵
关键词:二进制翻译
指令调度中的寄存器重命名技术被引量:2
2005年
指令间的依赖关系是阻碍指令调度发挥作用,进而影响指令级并行的主要障碍。寄存器重命名是解决控制依赖和数据依赖的一种重要技术。研究并实现了一种指令调度中的寄存器重命名技术。它在164.gzip和186.crafty上分别取得了约5%和3%的加速比。
张军超张兆庆
关键词:寄存器重命名
多寄存器组网络处理器上的寄存器分配技术被引量:5
2006年
针对传统的图着色寄存器分配算法不能直接处理网络处理器的操作问题,提出了一种多寄存器组网络处理上的寄存器分配技术.在依次分析了一个符号寄存器可能位于哪些寄存器组?如果没有候选组,该如何解决这种冲突?如果有多个候选组,该选用哪个组等问题的基础上,通过将这些方法与图着色寄存器分配算法相融合,在IXP上实现了这种多寄存器组的寄存器分配,提高了它的可编程性.这种方法也可运用到其它具有类似寄存器结构的处理器上.
张军超连瑞琦张兆庆
关键词:寄存器分配网络处理器
龙芯/ORC编译器中的Edge Profiling技术
2007年
在程序实际执行中,Profiling技术能为编译器提供准确的轮廓信息。编译优化借助这种轮廓信息,可在优化时进行取舍,提高生成代码性能。该文介绍了在龙芯/ORC编译器中edge profiling的技术,给出了在edge profiling辅助下CPU2000性能测试结果。
梁珊珊张军超冯晓兵
关键词:轮廓信息
众核体系结构对Cilk语言的硬件支持及评测研究被引量:7
2008年
如何编程众核体系结构是当前一个亟待解决的问题.研究可扩展的硬件机制支持Cilk编程模型的目的是在良好的编程性和可扩展硬件实现之间达到平衡.Cilk语言是C的精简扩展,程序员编写Cilk程序时和串行编程近似,且不需关心调度、负载均衡和局部性等系统底层相关的问题.文中以域一致性存储模型为基础,主要工作包括两方面:首先针对域一致性模型编程性不好的缺点提出一种以数据为中心维护高速缓存一致性的方法;其次提出实现DAG Consistency的缓存一致性协议,并在此基础上支持Cilk编程模型.实验结果表明,当处理器核数目较少(<16)时所有测试程序都能获得比较好的性能加速,并且指出了众核情况下(>16)难以获得理想加速效果的两个根本原因:静态路由导致片上网络带宽利用不均衡以及有限的访存带宽.
龙国平张军超范东睿
关键词:编程模型
基于软硬件的协同支持在众核上对1-DFFT算法的优化研究被引量:9
2008年
随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性.
周永彬张军超张帅张浩
关键词:快速傅立叶变换
共1页<1>
聚类工具0