您的位置: 专家智库 > >

国家自然科学基金(60970023)

作品数:16 被引量:15H指数:2
相关作者:安虹刘玉汤旭龙李小强毛梦捷更多>>
相关机构:中国科学技术大学中国科学院中国人民解放军陆军军官学院更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 16篇中文期刊文章

领域

  • 16篇自动化与计算...

主题

  • 9篇处理器
  • 3篇多核
  • 3篇多核处理
  • 3篇多核处理器
  • 2篇性能分析
  • 2篇硬件
  • 2篇语言
  • 2篇制导
  • 2篇流处理器
  • 1篇调度
  • 1篇调度算法
  • 1篇性能监测
  • 1篇硬件性能
  • 1篇预测器
  • 1篇阵列
  • 1篇上网
  • 1篇上线
  • 1篇视频
  • 1篇视频编解码
  • 1篇视频编码

机构

  • 16篇中国科学技术...
  • 6篇中国科学院
  • 1篇中国人民解放...
  • 1篇北京神舟航天...

作者

  • 16篇安虹
  • 3篇汤旭龙
  • 3篇刘玉
  • 3篇孙涛
  • 3篇毛梦捷
  • 3篇李小强
  • 2篇任永青
  • 2篇张海博
  • 2篇吴石磊
  • 2篇孙荪
  • 2篇王耀彬
  • 2篇王涛
  • 2篇范东睿
  • 2篇陈俊仕
  • 2篇周伟
  • 2篇彭毅
  • 1篇邓博斌
  • 1篇韩文廷
  • 1篇刘谷
  • 1篇魏学超

传媒

  • 7篇小型微型计算...
  • 5篇计算机工程
  • 3篇计算机科学
  • 1篇中国科学院研...

年份

  • 2篇2016
  • 1篇2015
  • 4篇2014
  • 3篇2013
  • 3篇2012
  • 3篇2011
16 条 记 录,以下是 1-10
排序方式:
流处理器的相变存储器主存性能优化被引量:2
2011年
将相变存储器(PCRAM)作为流处理器Imagine的主存储器,对其性能进行优化。建立(PCRAM)性能分析模型,针对PCRAM可写次数有限的缺陷,采用避免冗余位写技术,使PCRAM的生命周期延长3.4倍。利用PCRAM的非易失性,避免不必要的缓存行写回。分析访存调度算法对PCRAM性能的影响,结果表明,row/open调度算法性能较优,适合PCRAM使用。
郝秀蕊安虹李小强汤旭龙
关键词:相变存储器非易失性流处理器
一种输入感知的雷达回波快速聚类实现
2012年
聚类算法作为数据挖掘中的经典算法,在雷达回波的数据分析中经常被采用。然而对于规模和维度都较大的输入数据集,算法十分耗时。很多研究虽然对聚类算法进行了GPU平台的并行和优化的工作,但都忽略了输入数据集对优化的影响。因此,提出了在GPU/CUDA平台上的一种新颖的雷达快速聚类实现。该实现通过运行时的方式对输入的回波数据进行观察,以获取数据的分布信息,用以指导聚类计算在GPU上执行时的线程块调度。而该运行时模块本身的开销非常小。实验表明,引入这种输入感知的运行时调度支持后,大大削减了GPU的计算负载,获得了相对于一般策略的CUDA实现的20%~40%的性能提升,加强了算法的实时性能。
周伟安虹刘谷李小强吴石磊
关键词:聚类算法图形处理器统一计算设备架构
程序局部性的量化分析被引量:1
2013年
给出与平台无关的局部性量化方法,从空间局部性和时间局部性2个角度,量化SPEC2000测试基准程序,以及这些程序的数据段、代码段和堆栈段。时间和空间局部性组成的二维局部性分布直观地展示了基准测试程序的局部性。实验结果表明,程序数据局部性主要由堆段的局部性决定,堆段的局部性最差,栈的局部性最优。
刘扬安虹邓博斌毛梦捷刘玉
关键词:缓存
程序阶段性分析和阶段检测技术
2015年
对称多处理器的飞速发展和近年来提出的动态异构处理器(DHMP)为性能优化提供了新的机遇。一个机遇是找出程序每个阶段的性能瓶颈,提出了静态程序阶段分析方法,即通过分析结构参数和计算相似度矩阵来找出程序每个阶段的资源瓶颈;另一个机遇是给出动态异构处理器重构的时间节点,提出了DPDA和HTPD两种动态阶段检测算法,检测出阶段的变化能够为动态可重构处理器提供重构的时间节点。DPDA算法效果很好且软硬件实现代价小,而HTPD算法是目前为止第一个使用统计学方法进行动态检测阶段的算法。实验表明,与BBV相比,DPDA和HTPD能避免BBV离线、动态算法需添加额外硬件、结果与编译器相关等限制,并且阶段划分的稳定性和正确率与BBV相当。DPDA和HTPD算法由于本身不依赖额外硬件,因此都能直接在主流处理器和动态异构处理器(DHMP)中使用。
张海博安虹贺松涛孙涛王涛彭毅程亦超
基于分布式模拟机制的片上网络硬件模拟系统被引量:1
2016年
针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自行处理,从而提高模拟速度。基于该机制,设计并实现片上网络硬件模拟系统。实验结果表明,该系统能达到与业界权威BookSim模拟器同级别的模拟精度,模拟速度可达BookSim模拟器的200倍,相比DART模拟器能获得21%的速度提升,并且具有较好的扩展性。
彭毅安虹金旭程亦超迟孟贤孙荪
关键词:片上网络分布式模拟现场可编程门阵列多核处理器
一种类数据流驱动的可重构众核流处理器设计被引量:1
2013年
传统的片上多核结构存在着计算资源粒度固定的缺点,无法满足应用在不同阶段对计算资源的差异化需求.针对上述问题,本文设计了运行时逻辑核可调整的可重构众核流处理器及流程序映射方案,以期满足应用各个阶段对计算资源的需求,且不造成资源浪费.通过在时钟精确软件模拟器上评估不同类型应用的性能表现,分析了处理器主要设计参数对性能的影响.实验结果表明,与具有同样计算资源的固定粒度流处理器相比,本文设计的可重构众核流处理器能够获得10%-30%的性能提升.
许牧安虹汤旭龙周伟
关键词:可重构流编程模型
分片式处理器上的谓词执行技术优化被引量:1
2012年
谓词执行能使分片式处理器充分利用众多的执行单元,开发指令级并行性.但因此形成的超块也使得分支误预测代价增大,所以提高分支预测器的性能至关重要.本文提出一种基于剖析信息决策的谓词执行技术,该技术利用剖析信息对谓词执行前后的执行周期进行估算,从而对分支的谓词执行进行决策.该技术使分支预测器的命中率提高了0.68%~3.50%,使系统性能提高了1.67%~8.33%.同时,利用select指令表示谓词化指令也消除了重命名阶段寄存器多定义问题.
邓春华安虹路璐王耀彬
关键词:谓词执行分支预测器
Pview:一种基于PMU的支持并行程序性能分析的新方法被引量:4
2011年
近年来,随着并行编程的普及,性能监测和剖析已经成为计算机系统领域最重要的研究课题之一。PMU(Performance Monitoring Unit),即现代处理器里集成的微体系事件性能计数器,为性能监测提供了底层支持,使得在以极小的额外开销和极少的对目标程序的干扰的情况下对程序进行性能监测成为可能。Pview(Performance View)是一种在系统级支持对并行程序尤其是多线程程序进行性能监测与分析的工具,它同时支持全系统和针对特定进程(线程组)的性能事件直接计数或者抽样的分析方法。Pview在Linux操作系统平台上通过扩展内核2.6.30,实现了一个新的系统调用Pview来提供性能监测服务;同时与以模块方式实现的数据收集引擎协作,可以实现抽样并将大规模样本数据传输到用户空间供进一步分析。
闫洁徐恒阳安虹刘玉王耀彬
关键词:性能监测
主流视频编解码软件的硬件性能分析与设计被引量:3
2014年
网络视频会议以及高清视频点播等应用的广泛流行,对视频编解码的编码质量以及编码速度提出了更高的要求。为帮助硬件设计人员设计更强大的专用处理器去适应视频编解码应用的发展趋势,并评估处理器设计的合理性和正确性,对视频编解码进行分析和测试,提出一套基准测试程序。采用自顶向下的分析方法,以流行性、编解码效率、压缩质量和开源性为标准,选取主流的视频编解码软件,进行热点函数分析。抽取变换、量化以及滤波过程中的热点函数,使之成为视频编解码测试程序,为其构造典型输入集。通过分析真实硬件平台上这些测试程序的计算和访存特性,给出处理器设计的建议。结果证明,该基准测试程序使用10%的代码量即可反映视频编解码过程的主要特征,对处理器设计具有指导意义。
汤旭龙安虹范东睿
关键词:视频编解码体系结构性能分析滤波
多标准视频编码器下的运动估计评估
2014年
运动估计是视频编码过程中最为复杂和耗时的阶段。为分析和优化其性能,从多个流行的开源视频编码器中提取出单独的运动估计算法模块,根据视频分辨率和视频内容的不同建立程序输入集,从而构成一套完整的测试程序集合。利用性能分析工具对算法性能和微体系结构性能进行量化分析,给出这些算法在当今主流处理器体系结构上的性能差异。实验结果表明,复杂视频和高分辨率视频下的运动估计算法耗时最长,且大部分算法的指令级并行性没有太大差异。算法最后一级高速缓存的缺失率和分支误预测率都较低,分别在0.01%和7%以下。
孙公瑾安虹范东睿
关键词:视频编码视频内容分辨率微结构
共2页<12>
聚类工具0