国家高技术研究发展计划(2012AA012503)
- 作品数:49 被引量:212H指数:6
- 相关作者:颜永红潘接林周若华张晴晴李军锋更多>>
- 相关机构:中国科学院北京理工大学江西理工大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国科学院战略性先导科技专项更多>>
- 相关领域:电子电信自动化与计算机技术理学医药卫生更多>>
- 基于语音识别与特征的无监督语音模式提取被引量:4
- 2014年
- 在语音识别与特征系统中,通过无监督的方法搜索未知语音流中出现的语言模式。利用语音识别系统的多候选结果,通过分段动态时间弯曲算法进行语言模式的搜索,采用有效的聚类算法以及置信度估计算法,提高系统性能,同时建立仅基于特征匹配的相似音频片段检测系统,不使用任何知识源,仅从语音中获取重复的语音模式,在广播电视新闻与自然口语对话2个测试集上对比2个系统的性能。实验结果表明,基于识别的系统具有较好的检测效果,而基于特征的系统具备多语种的推广性。
- 张震赵庆卫颜永红
- 关键词:语音识别
- 基于非负矩阵分解的钢琴多音符估计被引量:1
- 2014年
- 提出了一种基于能量谱包络非负矩阵分解的钢琴多音符估计算法。首先对钢琴88个单音片段进行RTFI时频分析,求得对应平均能量谱,经过时序平均、归一化求得平均能量谱包络,拼接成钢琴的单音能量谱包络基矩阵。之后对测试的多音片段,采用同样处理方法求得多音平均能量谱包络,通过非负矩阵分解求得各音符的权重系数,最后通过阈值限定求得多音符估计结果。性能评估实验基于MAPS数据集的UCHO集和RAND集展开,与MIREX中最好的钢琴音乐自动记谱系统相比,本文提出的钢琴多音符估计算法性能有很大幅度的提升。
- 万玉龙王宪亮周若华颜永红
- 关键词:钢琴音乐非负矩阵分解
- ANC次级通道在线建模的辅助噪声控制方法被引量:4
- 2014年
- 主动噪声控制(ANC)系统中利用辅助噪声作为激励信号对次级通道建模的方式,对系统达到稳态的残余噪声有较大的影响。本文提出了一种适用于次级通道在线建模的辅助噪声控制方法。引入两个自适应门限来控制辅助噪声的注入和停止:当次级通道的建模精度足够时,停止注入辅助噪声对次级通道建模,以减小稳态噪声残余;当次级通道发生变化时,重新注入辅助噪声,以跟踪次级通道的变化。仿真结果表明了提出算法的有效性。
- 杨茜吴超付强颜永红
- 关键词:主动噪声控制
- 谐波显著度的基频提取方法被引量:5
- 2015年
- 我们提出的谐波显著度的基频提取方法,目的是从语音信号中自动获取人声基频,该方法利用抑制因子计算出基频的谐波显著度谱,对各次谐波显著度加权求和之后进行基频轨迹跟踪确定语音的基频序列。在TIMIT掺噪数据集和音乐信息检索评测2005主旋律数据集上,谐波显著度方法的准确率分别达到了88.5%和73.3%,使倍频、半频错误相对降低了80%。实验表明,基于谐波显著度的基频提取方法增强了系统的抗噪性能以及抗倍半频错误的能力。
- 宋黎明李明颜永红
- 关键词:语音信号基音周期抗噪性能基音检测
- 中文口语理解中关键语义类模糊匹配方法的研究被引量:2
- 2014年
- 针对人机交互过程中语音识别引起的发音变异以及用户表达关键信息不完整情况,提出一种模糊匹配方法.该方法分两步,第一步,通过条件随机场进行序列标注,定位查询语句中的关键语义概念,并得到其初步类别;第二步,利用几种相似度计算方法,寻找与领域词典中发音相似度最大的字符串对错误的语义概念进行替换,并标注出具体类别.另外针对最优模糊匹配结果不一定满足用户需要,进行了多个候选的实验.实验结果证明:无论使用哪种相似度计算方法,基于拼音的模糊匹配方法比基于字的模糊匹配方法在语音识别的文本上都具有更好的性能,而且在多候选的结果上也仍旧适用,说明该方法对于提高口语理解系统的鲁棒性上是有效的.
- 李艳玲颜永红
- 关键词:条件随机场命名实体识别相似度函数
- 电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究被引量:8
- 2016年
- 近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于长短期记忆(long short-term memory,LSTM)结构的深度神经网络(LSTM-deep neural network,LSTM-DNN)语言模型成为当前的研究热点。在电话交谈语音识别系统中,语料本身具有一定的上下文相关性,而传统的语言模型对历史信息记忆能力有限,无法充分学习语料的相关性。针对这一问题,基于LSTM-DNN语言模型在充分学习电话交谈语料相关性的基础上,将其应用于语音识别系统的重评估过程,并将这一方法与基于高元语言模型、前向神经网络(feed forward neural network,FFNN)以及递归神经网络(recurrent neural network,RNN)语言模型的重评估方法进行对比。实验结果表明,LSTMDNN语言模型在重评估方法中具有最优性能,与一遍解码结果相比,在中文测试集上字错误率平均下降4.1%。
- 左玲云张晴晴黎塔梁宏颜永红
- 关键词:语音识别
- 基于功率谱包络动态分割的鲁棒语音端点检测被引量:1
- 2015年
- 在复杂的声学环境中,由于环境噪声的干扰,导致声学特征的稳定性不够理想.为克服此难题,通常对决策结果在时间维度上进行平滑.然而,这些平滑过程本身没有考虑数据在时间维度上的结构特征,属于启发式的方法.该文采用动态分割的方法,将语音的频谱包络在时间维度上分割成具有特征同一性的时间块,以分割块为单位计算能量特征,并进行语音/非语音决策,从而达到提高语音端点检测的稳定性目的.实验表明,提出的方法有效提高了语音端点检测的鲁棒性.
- 许春冬王晶战鸽应冬文李军锋颜永红
- 关键词:语音端点检测聚类
- 小资源下基于神经网络的声学建模
- 小资源条件是指用于搭建语音识别系统的训练数据受限的情况。在该情况下,声学建模的精度亦受到影响。本文主要研究了小资源条件下神经网络声学模型的选择问题,重点对比了p-norm DNN(Deep Neural Networks...
- 杨晋仪张鹏远潘接林颜永红
- 关键词:语音识别声学模型
- 文献传递
- 基于加权有限状态机的动态匹配词图生成算法被引量:4
- 2014年
- 由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。
- 郭宇弘黎塔肖业鸣潘接林颜永红
- 关键词:自动语音识别关键词检索
- 音子配列学语种识别系统中特征选择方法的研究被引量:1
- 2013年
- 将信息增益和加权log似然比特征选择方法应用于音子配列学语种识别系统中进行特征降维。在美国国家标准技术研究院2009年语种识别评测数据集上进行实验,分别使用信息增益和加权log似然比准则以及传统的互信息,X^2统计量方法对数量巨大的N-gram进行特征选择,从中选出最具有鉴别性的部分组成特征向量,并用分类器进行分类。结果显示,当根据信息增益和加权log似然比准则选取一定数量的特征时,系统性能与使用全部特征的基线系统相比略好;当选取的特征数量很少时,信息增益和加权log似然比方法的性能要优于传统的互信息和X^2统计量方法。实验表明,在音子配列学语种识别系统中,信息增益和加权log似然比方法均可以有效地去除冗余信息,降低特征向量的维数,并且能使系统性能得到一定的提高。
- 梁春燕杨琳汪俊杰张建平颜永红
- 关键词:语种识别信息增益N-GRAM