公共文化服务平台

共 9 条记录，以下是 1-9

全选清除导出

排序方式：

“语音信号处理”系列课程的实验教学探讨被引量：1: 2014年; 本文介绍了"语音信号处理"课程的实验教学改革。我们在教学实践中,将一门课程扩展为相关联的三门系列课程,并尝试将系列课程中的实验内容进行统筹、合理安排,探索针对不同实验类型的实践教学方式,将演示答辩和实验方案引入到实验考核中,提高了学生的实践能力,取得了较好的效果。; 陈琦张连海屈丹张文林; 关键词：语音信号处理实践教学系列课程

卷积神经网络表征可视化研究综述被引量：24: 2022年; 近年来,深度学习在图像分类、目标检测及场景识别等任务上取得了突破性进展,这些任务多以卷积神经网络为基础搭建识别模型,训练后的模型拥有优异的自动特征提取和预测性能,能够为用户提供“输入–输出”形式的端到端解决方案.然而,由于分布式的特征编码和越来越复杂的模型结构,人们始终无法准确理解卷积神经网络模型内部知识表示,以及促使其做出特定决策的潜在原因.另一方面,卷积神经网络模型在一些高风险领域的应用,也要求对其决策原因进行充分了解,方能获取用户信任.因此,卷积神经网络的可解释性问题逐渐受到关注.研究人员针对性地提出了一系列用于理解和解释卷积神经网络的方法,包括事后解释方法和构建自解释的模型等,这些方法各有侧重和优势,从多方面对卷积神经网络进行特征分析和决策解释.表征可视化是其中一种重要的卷积神经网络可解释性方法,能够对卷积神经网络所学特征及输入–输出之间的相关关系以视觉的方式呈现,从而快速获取对卷积神经网络内部特征和决策的理解,具有过程简单和效果直观的特点.对近年来卷积神经网络表征可视化领域的相关文献进行了综合性回顾,按照以下几个方面组织内容:表征可视化研究的提起、相关概念及内容、可视化方法、可视化的效果评估及可视化的应用,重点关注了表征可视化方法的分类及算法的具体过程.最后是总结和对该领域仍存在的难点及未来研究趋势进行了展望.; 司念文张文林屈丹罗向阳常禾雨牛铜; 关键词：卷积神经网络可解释性

基于本征音子说话人子空间的说话人自适应算法被引量：4: 2015年; 本征音子说话人自适应算法在自适应数据量充足时可以取得很好的自适应效果,但在自适应数据量不足时会出现严重的过拟合现象。为此该文提出一种基于本征音子说话人子空间的说话人自适应算法来克服这一问题。首先给出基于隐马尔可夫模型-高斯混合模型(HMM-GMM)的语音识别系统中本征音子说话人自适应的基本原理。其次通过引入说话人子空间对不同说话人的本征音子矩阵间的相关性信息进行建模;然后通过估计说话人相关坐标矢量得到一种新的本征音子说话人子空间自适应算法。最后将本征音子说话人子空间自适应算法与传统说话人子空间自适应算法进行了对比。基于微软语料库的汉语连续语音识别实验表明,与本征音子说话人自适应算法相比,该算法在自适应数据量极少时能大幅提升性能,较好地克服过拟合现象。与本征音自适应算法相比,该算法以较小的性能牺牲代价获得了更低的空间复杂度而更具实用性。; 屈丹张文林; 关键词：语音信号处理说话人自适应

基于深度神经网络的Morse码自动译码算法被引量：6: 2020年; 在军用和民用领域,Morse电报一直是一种重要的短波通信手段,但目前的自动译码算法仍然存在准确率低、无法适应低信噪比和不稳定的信号等问题。该文引入深度学习方法构建了一个Morse码自动识别系统,神经网络模型由卷积神经网络、双向长短时记忆网络和连接时序分类层组成,结构简单,且能够实现端到端的训练。相关实验表明,该译码系统在不同信噪比、不同码速、信号出现频率漂移以及不同发报手法引起的码长偏差等情况下,均能取得较好的识别效果,性能优于传统的自动识别算法。; 游凌李伟浩张文林王科人; 关键词：频率漂移

基于稀疏组LASSO约束的本征音子说话人自适应: 2015年; 本征音子说话人自适应方法在自适应数据量不足时会出现严重的过拟合现象,提出了一种基于稀疏组LASSO约束的本征音子说话人自适应算法。首先给出隐马尔可夫—高斯混合模型下本征音子说话人自适应的基本原理;然后将稀疏组LASSO正则化引入到本征音子说话人自适应,通过调整权重因子控制模型的复杂度,并通过一种加速近点梯度的数学优化算法来实现;最后将稀疏组LASSO约束的自适应算法与当前多种正则化约束的自适应方法进行比较。汉语连续语音识别的说话人自适应实验表明,引入稀疏组LASSO约束后,本征音子说话人自适应方法的性能得到了明显提高,且稀疏组LASSO约束方法优于l1、l2和弹性网正则化方法。; 屈丹张文林; 关键词：说话人自适应

采用最少门单元结构的改进注意力声学模型被引量：1: 2018年; 采用"编码-解码"结构的注意力声学模型存在参数规模庞大、收敛速度慢和在噪声环境中对齐关系不准确的问题。针对以上问题,先提出引入最少门结构单元减少模型参数,减少训练时间;再采用自适应宽度的窗函数和在计算注意力系数特征的卷积神经网络中加入池化层进一步提高音素与特征对齐的准确度,从而提升识别准确率。在英语和捷克语的实验结果表明,改进后的模型参数规模和音素错误率均下降,同时识别性能优于基于隐马可夫模型和基于连接时序分类算法的声学模型。; 龙星延屈丹张文林徐思颖; 关键词：声学模型

基于对抗补丁的可泛化的Grad-CAM攻击方法被引量：3: 2021年; 为了验证Grad-CAM解释方法的脆弱性,提出了一种基于对抗补丁的Grad-CAM攻击方法。通过在CNN分类损失函数后添加对Grad-CAM类激活图的约束项,可以针对性地优化出一个对抗补丁并合成对抗图像。该对抗图像可在分类结果保持不变的情况下,使Grad-CAM解释结果偏向补丁区域,实现对解释结果的攻击。同时,通过在数据集上的批次训练及增加扰动范数约束,提升了对抗补丁的泛化性和多场景可用性。在ILSVRC2012数据集上的实验结果表明,与现有方法相比,所提方法能够在保持模型分类精度的同时,更简单有效地攻击Grad-CAM解释结果。; 司念文张文林屈丹常禾雨李盛祥牛铜; 关键词：卷积神经网络可解释性

基于互补FST的语音识别发音字典扩展被引量：1: 2017年; 发音字典是语音识别系统的重要组成部分,字典词汇量不足将导致高集外词率,降低语音识别性能。提出一种自动扩展字典的新方法,该方法不需要大量文本数据来获取新词,而是利用单词发音恢复集外词。首先,利用字典有限状态转换器(FST)表示的互补形式和P2G转换获取新的词-发音对。然后采用一种两步确认策略,即发音确认和单词确认,滤除错误词条。最后,采用语言模型线性内插将生成的新词添加进语言模型中。该方法在英语和捷克语的连续语音识别任务中进行了测试。实验表明,字典扩展有效降低系统集外词(OOV)率;英语大词汇量连续语音识别(LVCSR)系统的连续语音识别性能相对基线系统提升约9%,关键词检索性能约提升9.7%;捷克语系统性能分别提升了2.3%和10.0%。; 舒帆屈丹范正光周利莉张文林; 关键词：语音识别关键词检索

基于正样本对比与掩蔽重建的自监督语音表示学习被引量：1: 2022年; 针对现有基于对比预测的自监督语音表示学习方法在训练时需要构建大量负样本,其学习效果依赖于大批次训练,需要耗费大量计算资源的问题,提出了一种仅使用正样本进行语音对比学习的方法,并将其与掩蔽重建任务相结合得到一种多任务自监督语音表示学习方法,在降低训练复杂度的同时提高语音表示学习的性能。其中,正样本对比学习任务,借鉴图像自监督表示学习中SimSiam方法的思想,采用孪生网络架构对原始语音信号进行两次数据增强,并使用相同的编码器进行处理,将一个分支经过一个前向网络,另一个分支使用梯度停止策略,调整模型参数以最大化2个分支输出的相似度。整个训练过程中不需要构造负样本,可采用小批次进行训练,大幅提高了学习效率。使用LibriSpeech语料库进行自监督表示学习,并在多种下游任务中进行微调测试,对比实验表明,所提方法得到的模型在多个任务中均达到或者超过了现有主流语音表示学习模型的性能。; 张文林刘雪鹏牛铜陈琦屈丹; 关键词：无监督学习

全选清除导出

共1页<1>

张文林

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

张文林

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈