叶鸿
- 作品数:6 被引量:7H指数:2
- 供职机构:中国科学技术大学计算机科学与技术学院更多>>
- 发文基金:安徽省自然科学基金高等学校学科创新引智计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于指令级并行ILP和数据级并行DLP的FFT浮点优化方法
- 本发明公开了一种基于指令级并行ILP和数据级并行DLP的FFT浮点优化方法,其特征是按如下步骤进行:1,确定迭代层数,并将其划分成三层结构;2,通过使用位反序指令等操作,完成入度层计算;3,完成入度层计算后,对即将进行的...
- 顾乃杰任开新叶鸿周文博
- 文献传递
- 一种基于魂芯DSP的单模式位并行串匹配算法被引量:2
- 2020年
- 在多媒体技术飞速发展的今天,DSP处理器以其低功耗和高性能等特点在信号处理和图像检索领域有着重要的应用。串匹配作为信号处理和图像检索应用中的基本算法,其性能和效率也因此受到越来越多的关注。通过结合DSP处理器的分簇结构和零开销循环技术,并利用字符串分段的方法提出一种基于DSP的位并行串匹配算法EPSO。该算法可有效减少条件分支语句的时钟开销和分簇执行过程中的漏配次数,加速了串匹配过程。在国产魂芯DSP的仿真结果表明:EPSO算法的匹配速度是经典Shift-Or算法的7.8倍左右,串匹配效率得到有效提升;以KMP算法为基准,英文语料下该算法的平均匹配速度是KMP算法的6.3倍左右,DNA序列下是KMP算法的10.5倍左右,相比NEW、S2BNDM算法均具有显著的性能提升。
- 陈瑞顾乃杰叶鸿
- 关键词:串匹配分簇位并行
- 数字信号变换函数在多簇VLIW DSP上的优化被引量:2
- 2016年
- 针对BWDSP100体系结构特点,基于循环展开、指令调度以及软件流水等并行优化技术,结合多簇超长指令架构的特点,通过使用超算硬件指令、零开销循环、指令重新编排与并行等方法对BWDSP100数字信号处理函数库中的函数实施并行化,并基于库中原有的顺序版本实现并行优化版本。实验结果表明,在4宏并行化模式下,所有函数加速比达到9以上,90%的函数加速比超过10,平均加速比为11.12。
- 甄扬顾乃杰叶鸿
- 关键词:超长指令字数字信号处理器并行化
- 一种基于ILP和DLP的FFT浮点优化方法
- 本发明公开了一种基于ILP和DLP的FFT浮点优化方法,其特征是按如下步骤进行:1,确定迭代层数,并将其划分成三层结构;2,通过使用位反序指令等操作,完成入度层计算;3,完成入度层计算后,对即将进行的中间层计算进行分类,...
- 顾乃杰任开新叶鸿周文博
- 一种基于HXDSP的移位器查找表技术被引量:1
- 2019年
- 高性能信号处理应用的快速发展,对相应处理器的运算速度及吞吐效率提出了巨大挑战。移位器是数字信号处理器(DSP)上的重要部件,通过为移位器设计额外专用随机存取存储器(RAM)和查找表(LUT),并对其指令集及架构进行优化调整,从而达到提高处理器使用效率和传输速率的目的。此外,基于移位器与相应查找表指令,可在数据暂存的同时进行移位、提取、算术与逻辑运算处理,将部分数据运算的过程直接合并在对移位器RAM的数据存读取过程中,显著地提高了运算部件的使用效率。结果表明:基于移位器查找表的暂存技术可以达到与传输总线接近的吞吐率,对信号处理算法快速傅里叶变换(FFT)可以达到加速比约为1. 15~1. 20的性能提升效果。
- 叶鸿顾乃杰林传文张孝慈陈瑞
- 关键词:移位器
- DSP处理器上的高效串匹配实现被引量:2
- 2021年
- 字符串匹配是生物识别、入侵检测的基础,也是大数据互联网时代的研究热点.随着现代信息技术的发展,日常工作生活中移动及手持小型化设备的使用越发普遍.这些设备的应用场景中包含大量有关串匹配的需求,如人脸识别、实时数据查询等.串匹配算法的实时和准确性决定了使用场景的范围,因此在DSP处理器等移动小型化设备的嵌入式处理器上实现高效串匹配算法的问题变得十分迫切.该文针对DSP处理器因缺乏逻辑判断与跳转指令,难以支持高效串匹配运算的问题,提出了一种基于DSP平台特点的改进串匹配算法.该算法采用位并行的思路,在DSP处理器上实现了串匹配算法的并行化.同时通过前序启动、基于VLIW的数学运算替代逻辑判断、Q-grams等优化手段,提高该算法对于DSP平台的适应性与执行效率,最终实现了一种基于HXDSP的高效串匹配算法VBNDM2.实验结果表明,本算法针对DSP平台,有效地提高了串匹配的效率,实现了算法的高效并行化.
- 叶鸿顾乃杰林传文
- 关键词:DSP串匹配VLIWSIMD位并行