李荣春 作品数:11 被引量:19 H指数:3 供职机构: 国防科学技术大学计算机学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
基于GPU的并行Turbo乘积码译码器 被引量:3 2020年 Turbo乘积码是一类前向纠错码,在高码率下具有良好的误码率性能。TPC编码器的实现相对简单,其译码器的译码复杂度也比较合理。因此,TPC被广泛用于各种场景,例如卫星通信系统和数据存储系统等。提出了一种基于GPU的并行TPC译码器,可以同时译码二维乘积码矩阵的所有行或列。设计了一种并行基本译码器,以简化由扩展汉明码构成的TPC的译码过程。实现了测试样例和有效码字计算的并行化,降低了译码延迟。为了进一步提高译码吞吐率,提出了多通道TPC译码器。在不同的GPU上测量了并行译码器的性能,实验结果表明,与基于CPU的TPC译码器相比,基于GPU的并行TPC译码器的译码延迟显著降低。此外,基于GPU的并行TPC译码器的吞吐率在NVIDIA RTX 2080 Ti上达到30 Mbps,在NVIDIA GTX Titan V上达到38 Mbps,是基于CPU的TPC译码器性能的44倍和54倍。 李荣春 周鑫 潘衡岳 牛新 高蕾 窦勇关键词:TURBO乘积码 TURBO译码 GPU 现场可编程门阵列参数化多标准高吞吐率基4Viterbi译码器 被引量:2 2016年 为了同时达到高性能和灵活性的目标,提出一种基于现场可编程门阵列的参数化多标准自适应基4 Viterbi译码器。译码器采用3~9可变约束长度,1/2、1/3可变码率,支持任意截断长度的纠错译码,并采用码字无符号量化、加比选单元设计优化和归一化判断逻辑分离策略优化关键路径设计,提高译码器工作频率。实验结果表明,该译码器能根据用户设定的参数改变结构,在多种通信标准之间实现动态切换;性能达到了541 Mbps,明显优于相关工作;对GPRS,Wi MAX,LTE,CDMA,3G等通信标准都取得了良好的误码性能,可满足多种通信标准的译码需求。 夏飞 聂晶 李荣春 王文涛关键词:现场可编程门阵列 VITERBI译码器 参数化 以LDA为例的大规模分布式机器学习系统分析 被引量:5 2017年 针对构建大规模机器学习系统在可扩展性、算法收敛性能、运行效率等方面面临的问题,分析了大规模样本、模型和网络通信给机器学习系统带来的挑战和现有系统的应对方案。以隐含狄利克雷分布(LDA)模型为例,通过对比三款开源分布式LDA系统——Spark LDA、PLDA+和Light LDA,在系统资源消耗、算法收敛性能和可扩展性等方面的表现,分析各系统在设计、实现和性能上的差异。实验结果表明:面对小规模的样本集和模型,Light LDA与PLDA+的内存使用量约为Spark LDA的一半,系统收敛速度为Spark LDA的4至5倍;面对较大规模的样本集和模型,Light LDA的网络通信总量与系统收敛时间远小于PLDA+与Spark LDA,展现出良好的可扩展性。"数据并行+模型并行"的体系结构能有效应对大规模样本和模型的挑战;参数弱同步策略(SSP)、模型本地缓存机制和参数稀疏存储能有效降低网络开销,提升系统运行效率。 唐黎哲 冯大为 李东升 李荣春 刘锋关键词:主题模型 文本聚类 面向众核处理器的阴阳K-means算法优化 2024年 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 周天阳 王庆林 李荣春 李荣春 尹尚飞 梅松竹 刘杰关键词:K-MEANS 向量化 多核数字信号处理卷积算法并行优化 2024年 针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积核大于1的卷积提出了窗口级多核并行优化设计,同时提出了逐元素向量化计算的核内并行优化实现。实验结果表明,所提并行优化方法实现单核计算效率最高能达到64.95%,在带宽受限情况下,多核并行扩展效率可达到48.36%~88.52%,在典型网络ResNet50上的执行性能与E5-2640 CPU相比,获得了5.39倍性能加速。 许金伟 王庆林 李娅琳 姜晶菲 姜晶菲 高蕾 李东升关键词:多核DSP 卷积神经网络 高性能异构加速器MiniGo算子优化方法 2024年 根据高性能异构加速器的特性和MiniGo的训练模式提出了一种高效的并行计算方法。对片上计算资源进行合理规划,实现异构设备之间的流水并行优化;根据异构设备间存在共享存储段设计了共享内存编码模式,减少数据传输开销;根据数字信号处理簇内具有多计算资源的特点结合算子计算-访存特性设计了不同的算子并行计算优化策略。同时,面向TensorFlow实现了一个易于使用的高性能计算库。实验结果显示,该方法实现了典型算子的多核并行计算。相对于单核,卷积算子加速比为24.69。相较于裁剪版8核FT2000+CPU,该方法训练和自博弈执行速度加速比分别为3.83和1.5。 乔鹏 贺周雨 李荣春 姜晶菲关键词:异构计算 卷积神经网络 面向GPU的5G新型无线电的高吞吐率LDPC译码器 2024年 提出了一种基于图形处理单元(graphic processing unit,GPU)的5G软件无线电准循环低密度奇偶校验(low density parity check,LDPC)码译码器,为了节省片上和片下带宽,采用码字缩短和打孔技术、两级量化和数据打包方案,以提升数据带宽的利用率。实验基于Nvidia RTX 2080Ti GPU平台实现了高码率情况下的最小和近似译码算法的并行译码,通过分析GPU上的最优线程设置,将码率为5/6的(2080,1760)LDPC算法的译码吞吐率提升至1.38 Gbit/s,译码吞吐率性能优于现有其他基于GPU的LDPC译码器。 李荣春 周鑫 乔鹏 王庆林关键词:低密度奇偶校验 图形处理单元 软件无线电 多核数字信号处理器并行矩阵转置算法优化 被引量:3 2023年 矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。 裴向东 王庆林 廖林玉 李荣春 李荣春 刘杰 梅松竹关键词:多核DSP 多核数字信号处理器矩阵乘卷积算法性能评测 被引量:2 2023年 矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。 王庆林 裴向东 廖林玉 王浩旭 李荣春 李荣春 李东升关键词:卷积神经网络 生物序列搜索算法hmmsearch的加速技术 被引量:2 2010年 在FPGA平台实现细粒度并行的hmmsearch加速技术。采用数据预取、滑动窗口和数据传递等策略实现子处理单元的数据重用。在计算矩阵块内部实现流水线计算。加速器性能为3.59 GCUPS,与CPU相比,可获得接近235倍的加速效果。与目前FPGA上同性质最快的加速器相比,单PE可获得34%的性能提升。 李荣春 窦勇 夏飞关键词:加速器 现场可编程门阵列