国家科技重大专项(2009ZX01034-001-001-006) 作品数:13 被引量:47 H指数:5 相关作者: 陈书明 陈胜刚 尹亚明 陈海燕 刘胜 更多>> 相关机构: 国防科学技术大学 河南信息工程学校 更多>> 发文基金: 国家科技重大专项 国家高技术研究发展计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
具有高效混洗模式存储器的可编程混洗单元 被引量:2 2011年 为向量DSP提出并设计了一种具有高效混洗模式存储器的可编程混洗单元,该结构能够使应用程序的混洗指令在执行时和通用寄存器或访存带宽等系统的关键资源分离,从而提高混洗单元的执行效率。采用区分不同混洗粒度和元素索引等方法对混洗模式所对应的开关矩阵进行了压缩,我们的存储效率高于当前其他方案。该混洗单元具有可编程的特点,应用程序所需要的混洗模式可以提前由程序员编写并通过DMA等途径加载。对该混洗单元进行了VLSI实现及性能评测,结果显示此方案能够在给系统带来0.6%的额外面积开销基础上使应用程序的性能提升7.4%~17.4%。 万江华 刘胜 周锋 王耀华 陈书明多搜索中心的运动估计快速算法 被引量:4 2011年 块大小可变的运动估计方法能提高视频编码性能,但也增加了计算时间.为了加快运动估计计算,本文提出了一种基于多搜索中心预测和搜索范围动态调整的快速算法.多搜索中心预测方法对当前宏块时间和空间上相邻块的运动向量进行分析,得出多个预测向量作为运动估计的搜索中心.相比传统预测方法,多搜索中心预测最高可提高约14.6%的预测精度.依据预测运动向量的数目和大小,本文算法对搜索范围进行动态调整,进一步降低了计算复杂度.实验结果显示,相比H.264参考软件中的快速全搜索算法,UMHS算法和EPZS算法,本文算法分别节省约96.22%,59.50%和39.06%的计算时间,且具有相近的率失真性能. 谷会涛 陈书明 孙书为 陈胜刚关键词:快速运动估计 H.264/AVC 支持任意系数长度和数据类型的FIR滤波器向量化方法 被引量:7 2013年 向量处理器的向量化算法映射是难点问题.提出一种支持任意系数长度和数据类型的FIR滤波器向量化方法,将(Finite Impulse Response)滤波器的卷积计算划分为系数长度步向量乘法和加法计算,每一步的向量乘法和加法计算在各个向量处理单元上并行执行,计算一个输出结果的所有乘法和加法计算都在同一向量处理单元上完成,每次循环能够同时完成向量处理单元数量个输出结果的计算.在向量处理器YHFT-Matrix的实验结果表明,该向量化FIR滤波器能够取得高效的计算性能和加速比. 刘仲 陈跃跃 陈海燕关键词:FIR滤波器 向量化 向量处理器 一种动态分配输入队列的片上虫孔路由器结构 被引量:5 2010年 为了降低片上网络(NoC)由于虫孔缓冲结构排头(HoL)阻塞导致的性能损失,同时消除虚通道缓冲结构对可变长度报文表现出的缓冲区低利用率现象,本文采用虚拟通道技术提出一种动态分配输入队列(DAIQ)的片上虫孔路由器结构.该结构采用一种令牌表的方式支持虚拟队列深度与数量的动态分配,同时为了支持同一报文微片能够连续调度,本文还提出一种新颖的开关分配机制——SRRM,该机制在高负载下进一步改善了开关的延迟与吞吐率.仿真与综合的结果表明,相比传统虚通道流控的片上路由器结构,DAIQ路由器以50%的缓冲面积获得类似的性能,在0.13微米CMOS工艺下节约了30.18%的标准单元面积与38.4%的功耗. 朱红雷 彭元喜 陈海燕 尹亚明关键词:片上网络 流控 一种低功耗低偏斜的无缓冲谐振时钟分布网络设计 被引量:2 2013年 作为下一代时钟分布技术的有力竞争者,谐振时钟机制具有低功耗、低偏斜的显著优势,但设计方法的缺乏导致该技术在同步数字系统中的应用受到严重制约。为解决这一问题,提出了一种面向无缓冲谐振时钟分布技术的物理设计方法,能够结合现有设计流程,有效实现谐振时钟网络设计。该方法基于SPICE分析并优化与谐振时钟网络相关的设计参数,保证整个物理设计快速收敛于目标频率。通过一块乘法器电路验证了该设计方法,带有寄生参数网表的SPICE结果显示,与采用树型和网格型时钟分布网络的同步电路相比,基于无缓冲谐振时钟网络的同步电路时钟系统功耗降低最高可达64%,总功耗降低16%以上。此外,无缓冲时钟网络的时钟偏斜小于时钟周期的2%。 徐毅 陈书明 刘祥远关键词:设计方法学 低功耗 Amdahl定律在层次化片上多核处理器中的扩展 被引量:7 2012年 层次化片上多核处理器以紧耦合的多个核构成超节点,对访存和片上通信的局部性有良好支撑,能有效地缓解片上多核中数据通信带来的通信开销.在关于多核处理器的Amdahl开销/性能模型已有的研究基础上,引入片上数据通信延迟作为Amdahl任务计算开销的新元素,构建了层次化片上多核处理器的Amdahl加速比扩展模型.基于该扩展模型,就层次化片上多核处理器的加速比与超节点配置的关系问题展开研究.模拟分析发现,要获得良好的加速比性能,层次化片上多核处理器需要在超节点数目与超节点的大小(超节点内核的个数)之间作仔细的权衡;对于给定核数目的层次化片上多核处理器,使系统性能最优的超节点大小往往出现在中间某个值而不是最大或者最小,并且该值随着系统规模的变化会发生相应的变化. 陈书明 陈胜刚 尹亚明关键词:层次化结构 片上多核处理器 数据通信 AMDAHL定律 3GPP-LTE基带处理系统仿真与计算需求分析 2010年 下一代通信协议3GPP-LTE可以带来更大的数据带宽,更小的数据误码率,但随之而来的是硬件计算量的极大增加。本文通过建立基于3GPP-LTE通信协议的基带系统仿真模型,分析了3GPP-LTE协议的运算特点,最后提出了一种更高效的系统解决方案。 李闻博 陈书明关键词:MIMO OFDM 协同多核DSP YHFT-QMBase:体系结构及实现 被引量:6 2015年 在信号处理领域的优异表现使得Vector-SIMD结构在近年来获得了广泛的关注.Vector-SIMD结构和多核技术相结合是目前高性能DSP体系结构发展的重要方向.然而,在目前的多核VectorSIMD处理器中某些部件间的协同工作能力还比较弱,导致了系统的整体性能得不到有效发挥.本文设计实现了一款协同多核DSP YHFT-QMBase,从4个方面增强了多核Vector-SIMD体系结构的协同性:(1)采用动态耦合机制重定义了标量单元和向量单元的工作方式;(2)采用矩阵方式的通信机制增强了向量Lane间的交互能力;(3)采用非对齐向量存储访问机制解决了向量存储器的数据共享问题;(4)采用Qlink-Crossbar机制满足了多核间后台高效粗粒度数据搬移的需求.评估结果显示,本文提出的协同增强机制能够使传统的Vector-SIMD结构获得58.5%的性能提升.目前YHFT-QMBase已经成功流片,评测结果显示其峰值浮点乘加能力(单精度)达到32 GFMACS,定点运算能力(16位)为128 GMACS,典型功耗为8.65 W. 陈书明 刘胜 万江华 王耀华 陈胜刚 陈海燕 刘衡竹 孙海燕 刘仲关键词:多核 评测 PCI Express技术在嵌入式MPSoC中的应用 2013年 PCI Express作为第三代高性能I/O互连技术具有很多技术优势,如基于报文交换、点对点连接、LVDS高速串行互连、高带宽等。但是,PCI Express技术更多地应用于通用高性能计算机领域,鲜有将其应用于嵌入式系统设计中的实例。本文基于自行研制的一款嵌入式多核SoC系统YHFT-QDSP,根据系统设计需求,结合PCI Express技术特点,采用基于IP裁剪的快速设计方法将PCI Express技术应用于系统片间互连模块的设计中,缩短了设计周期并获得了良好的设计效果。采用0.13μm工艺单元库实现,PCI Express片间互连模块总面积为0.65mm2,其中协议转换模块面积为0.12mm2,片间数据传输有效带宽可达1.63Gb/s。 尹亚明 刘秋丽 陈书明关键词:PCI EXPRESS 嵌入式系统 面向SDR应用的向量存储器的设计与优化 被引量:1 2012年 针对面向SDR应用的SIMD数字信号处理器高带宽数据访存需求,提出并实现了一种新型的向量存储结构。该向量存储器由16路向量存储块构成,每路采用两组多体低位地址交叉编址存储结构,减少了访存体冲突,充分利用多存储体带宽,以较小的功耗代价实现并行访问多个向量数据。在此基础上,还设计了一种向量访存重整理单元,使向量存储器可灵活支持多路SIMD结构向量处理单元的非对齐访问,实现了其对向量存储器的共享。测试结果表明,该向量存储器能有效减少或消除向量处理单元之间的数据混洗操作,加速相关应用算法。 陈海燕 刘胜 刘仲 陈书明关键词:向量处理