您的位置: 专家智库 > >

张文林

作品数:34 被引量:115H指数:6
供职机构:解放军信息工程大学更多>>
发文基金:国家自然科学基金河南省自然科学基金国家高技术研究发展计划更多>>
相关领域:电子电信自动化与计算机技术军事文化科学更多>>

文献类型

  • 29篇期刊文章
  • 2篇专利
  • 1篇学位论文
  • 1篇会议论文

领域

  • 25篇电子电信
  • 8篇自动化与计算...
  • 1篇军事

主题

  • 19篇语音
  • 18篇语音识别
  • 8篇神经网
  • 8篇神经网络
  • 8篇自适
  • 8篇自适应
  • 7篇连续语音
  • 7篇连续语音识别
  • 6篇声学模型
  • 6篇说话人自适应
  • 6篇网络
  • 4篇识别方法
  • 4篇子空间
  • 4篇向量
  • 4篇本征
  • 3篇语言辨识
  • 3篇语言模型
  • 3篇正则
  • 3篇正则化
  • 3篇支持向量

机构

  • 33篇解放军信息工...
  • 2篇清华大学
  • 1篇中国科学技术...
  • 1篇河南信大网御...

作者

  • 33篇张文林
  • 23篇屈丹
  • 11篇李弼程
  • 6篇牛铜
  • 5篇闫红刚
  • 4篇张连海
  • 4篇李真
  • 2篇陈琦
  • 2篇张卫强
  • 2篇王炳锡
  • 2篇李华
  • 2篇梁玉龙
  • 1篇郭武
  • 1篇裴喜龙
  • 1篇彭天强
  • 1篇王波
  • 1篇张刚
  • 1篇周利莉
  • 1篇刘加
  • 1篇许友亮

传媒

  • 9篇信息工程大学...
  • 5篇自动化学报
  • 4篇信号处理
  • 2篇电子与信息学...
  • 2篇西安交通大学...
  • 1篇声学学报
  • 1篇计算机研究与...
  • 1篇电子学报
  • 1篇数据采集与处...
  • 1篇计算机工程与...
  • 1篇警察技术
  • 1篇计算机科学
  • 1篇中国科协第四...

年份

  • 1篇2025
  • 1篇2023
  • 1篇2022
  • 1篇2021
  • 1篇2019
  • 2篇2018
  • 5篇2017
  • 2篇2016
  • 6篇2015
  • 3篇2014
  • 2篇2013
  • 3篇2012
  • 1篇2011
  • 2篇2008
  • 1篇2007
  • 1篇2006
34 条 记 录,以下是 1-10
排序方式:
结合瓶颈特征的注意力声学模型被引量:3
2019年
目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息来加快模型的收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统的基础上,通过减少注意力模型中循环神经网络的层数来减少训练的时间,通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数来优化识别准确率。在TIMIT数据库上的实验表明,该模型在测试集上的音素错误率降低至了17.80%,训练的平均迭代周期缩短了52%,训练迭代次数由139减少至89。
龙星延屈丹张文林
关键词:声学模型注意力模型
基于子空间的声学模型及自适应技术研究
语音信号位于一个高维空间中,受发音上下文、说话人、说话环境等因素的影响,它存在大量的不确定性。如何根据有限的训练数据得到精确的声学模型,如何根据少量的自适应数据对其进行调整、使之与测试数据相匹配,一直是连续语音识别中研究...
张文林
关键词:连续语音识别声学模型说话人自适应子空间方法
采用长短时记忆网络的低资源语音识别方法被引量:20
2017年
针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。
舒帆屈丹张文林周利莉郭武
关键词:语音识别神经网络
一种基于压缩感知的说话人自适应方法
本发明涉及一种基于压缩感知的说话人自适应方法,属于连续语音识别的声学模型自适应技术领域。本发明将说话人自适应视为一种高维信号的稀疏分解问题,在训练阶段联合本征音超矢量和训练说话人超矢量构造超矢量字典;在自适应阶段,在稀疏...
屈丹张文林李真闫红刚张刚
基于强化学习的自监督语音识别模型微调技术被引量:2
2023年
近年来,基于大规模自监督预训练和微调技术的端到端连续语音识别取得显著进展,然而现有方法在模型微调阶段和测试阶段存在目标不一致性,制约其性能的进一步提升。针对此问题,提出采用强化学习技术对自监督预训练模型进行微调的方法。该方法将语音识别问题转化为序列决策问题,将预训练模型得到的语音高层表示作为环境状态编码,将词错误率作为奖励函数,将语音识别模型视为策略函数,采用策略梯度算法直接对词错误率进行优化。针对LibriSpeech语料库上的实验结果表明,基于Wav2vec2.0或Hubert预训练模型,采用强化学习微调得到的语音识别模型比采用CTC准则微调后系统的词错误率分别相对降低了6.3%和4.9%。
陈紫龙张文林
关键词:自动语音识别
语音识别中基于低秩约束的本征音子说话人自适应方法被引量:3
2014年
该文提出一种基于低秩约束的本征音子(Eigenphone)说话人自适应方法。原始的本征音子说话人自适应方法在自适应语料充分时具有很好的效果,然而当自适应语料不足时,出现严重的过拟合现象,导致自适应后的系统可能比自适应前的系统还要差。首先,对协方差矩阵为对角阵的隐马尔可夫-高斯混合模型语音识别系统,推导出一种简化的本征音子矩阵估计算法;然后,对本征音子矩阵引入低秩约束,采用矩阵的核范数作为矩阵秩的凸近似,通过调节核范数的权重因子以有效控制自适应模型的复杂度;最后,给出一种加速近点梯度算法以求解新算法中引入的带有核范数正则项的数学优化问题。汉语连续语音识别的说话人自适应实验表明,引入低秩约束后,本征音子说话人自适应方法的自适应效果得到了明显提高,在5~50 s的自适应数据条件下,均取得了比最大似然线性回归后接最大后验(MLLR+MAP)自适应更佳的识别效果。
张文林张连海陈琦李弼程
关键词:语音识别说话人自适应
基于语速调整和音位属性后验概率的音素识别被引量:5
2012年
基于语音事件检测的自动语音识别是当前研究的热点问题。针对说话人语速变化导致模型适应性差的问题,提出了一种语速自适应调整算法。该算法以语句为单位,采用连续变化的帧长与帧移间隔对语句进行归一化调整,使调整后速率与语料库平均速率一致,减小速率因素对模型训练的影响;另外,通过计算音位属性的后验概率向量间夹角,得到测试集的语速,相比采用训练模型的语速检测方法减轻了系统负担。本文将语速调整算法应用于音位属性的提取,并对音位属性特征进行非线性变换,最后采用隐马尔科夫模型进行建模,实验表明:经过语速调整后,音素的平均持续帧数较为恒定,动态变化范围减小,使得音素识别率提升了1.3%。
许友亮张连海张文林李永彬
关键词:隐马尔可夫模型自动语音识别
基于ATWV优化和偏差补偿的词相关置信度规整被引量:1
2015年
根据测试集中词发生次数调整候选关键词置信度得分,提出一种新的基于ATWV(actual term-weighted value)优化的词相关置信度规整算法。针对ATWV优化计算中存在的置信度偏差问题,分别进行偏差线性补偿和区分性补偿,其中线性补偿通过添加加权和平移系数,以线性方式调整置信度得分;区分性补偿则通过区分性模型训练,将置信度转化为满足ATWV计算要求的正确分类概率,降低置信度偏差带来的影响。基于英文WSJ语料库的关键词识别实验表明,新的置信度规整方法可显著提高系统识别性能。
王朋屈丹张文林
基于VQ-VAE与Do-Conv层的无监督语音表示学习
2022年
针对在无监督条件下,对语音信号提取语音表示的问题,提出了Do-VQVAE模型。提出的Do-VQVAE模型主要基于矢量量化变分自编码器的结构进行实现,并在此基础上,引入深度方向超参数化卷积层构成编码器。该模型通过编码器-解码器的结构,以无监督的方式提取语音信号的特征,将编码器的输出通过码书的映射进行量化,得到离散的语音表示。在实验过程中还引入了互信息神经估计,旨在提高学习到的语音表示的说话人不变性。提出的模型在ZeroSpeech 2019挑战的数据集上进行了训练和测试,经过测试,模型的ABX错误率相比于基线和卷积VQ-VAE模型都有明显降低,并取得了与最好系统相媲美的结果。
刘雪鹏张文林陈紫龙
基于最大似然可变子空间的快速说话人自适应方法被引量:3
2012年
该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。
张文林牛铜张连海李弼程
关键词:连续语音识别说话人自适应子空间方法
共4页<1234>
聚类工具0