公共文化服务平台

一种快速说话人搜索算法: 随着音频数据的不断增加,说话人识别已经变得越来越困难。本文提出了一种新颖的方法,在己有的说话人识别系统(GMM-UBM 系统)的基础上,综合利用 Index 和 Simulation, 以很小的代价,极大的提高了说话人识...; 朱磊江杰郑榕徐波; 关键词：说话人识别; 文献传递

基于听觉感知特性的信号子空间麦克风阵列语音增强算法被引量：6: 2009年; 针对麦克风阵列信号子空间语音增强算法的不足,结合人耳的听觉掩蔽效应,提出了改进的信号子空间算法.提出了通过置信度判断来确定噪声子空间维度的方法,在噪声子空间上,通过条件概率的方法估计出噪声功率谱.在此基础上,结合人耳的听觉掩蔽效应给出了线性滤波器的一种合理估计.实验结果表明所提的方法相对于传统算法,更有效地抑制了噪声,在多项语音质量评价指标上都有明显的改进.; 程宁刘文举; 关键词：语音增强信号子空间麦克风阵列听觉掩蔽效应特征值分解

改进谐波组织规则的单通道浊语音分离系统被引量：7: 2011年; 针对以往单通道噪声和浊语音分离算法的不足,改进了谐波组织算法。算法利用载波包络能量比将时频单元分为确定和非确定。提取基频作为组织线索。组织阶段分别使用谐波原理和最小幅度原理对确定时频单元组织;使用改进包络自相关函数度量幅度调制率对非确定时频单元组织。对比以往算法的处理结果,改进算法平均信噪比(SNR)提高0.96 dB。通过对谐波组织规则的改进,提高了分离性能。; 张学良刘文举李鹏徐波; 关键词：单通道谐波语音自相关函数

汉语语音识别中声学界标点引导的随机段模型解码算法被引量：1: 2013年; 提出了一种随机段模型的解码优化算法。检测出具有语音学意义的界标点,根据这些界标点分析临近语音段的边界信息和声韵母类别信息,最后将这些边界信息和类别信息用于指导随机段模型的搜索过程。实验中,两种类型的界标点能较为准确地被检测出来,并用于指导随机段模型的解码,在"863-test"测试集上进行的汉语连续语音识别实验显示,在正确率只有轻微下降的同时,解码时间下降了12.92%,这表明了将语音学知识引入语音识别系统的有效性。; 晁浩杨占磊刘文举; 关键词：语音识别解码

基于发音稳定段的自适应步长段模型解码及其在LVCSR中的应用: 本文提出了一种基于发音稳定段的自适应步长段模型解码方法,并将其应用于大词汇量汉语连续语音识别系统中。该方法首先利用语音信号的频谱能量构建特征向量,并用统计分类工具检测出发音稳定段;随后在语音识别阶段,不再对起始帧或终止帧...; 张华刘文举徐波; 关键词：语音识别语音信号分析高斯混合模型; 文献传递

基于互补模型的汉语重音检测被引量：3: 2011年; 针对现有汉语重音检测方法正确率较低的问题,利用声学、词典和语法相关特征的不同分类器组合,基于Boosting分类回归树+条件随机场的互补模型,提出一种改进的汉语重音检测方法。在ASCCD语料库上的实验结果表明,该方法能获得84.9%的重音检测正确率,相比基于神经网络+决策树的基线系统提高2.7%。; 倪崇嘉刘文举徐波; 关键词：重音条件随机场神经网络支持向量机

基于最大似然线性回归的随机段模型说话人自适应研究: 2014年; 提出了一种随机段模型系统的说话人自适应方法。根据随机段模型的模型特性,将最大似然线性回归方法引入到随机段模型系统中。在"863-test"测试集上进行的汉语连续语音识别实验显示,在不同的解码速度下,说话人自适应后汉字错误率均有明显的下降。实验结果表明,最大似然线性回归方法在随机段模型系统中同样能取得较好的效果。; 晁浩杨占磊刘文举; 关键词：语音识别说话人自适应

一种快速说话人搜索算法被引量：1: 2008年; 随着音频数据的不断增加,说话人识别已经变得越来越困难。本文提出了一种新颖的方法,在已有的说话人识别系统(GMM-UBM系统)的基础上,综合利用Index和Simulation,以很小的代价,极大地提高了说话人识别的速度,从而使说话人搜索成为可能。具体而言,就是采用两遍搜索策略,首先通过建立索引,在索引空间,比较索引间的欧氏距离,粗略地筛选出一定量的候选说话人目标;然后在此基础上,通过更精细的Simulation模型匹配,找出最佳的识别结果。实验结果显示我们的方法能以很小的代价,显著地提高说话人识别的速度。; 朱磊江杰郑榕徐波; 关键词：计算机应用中文信息处理说话人识别

融合引导概率的语音识别解码算法研究被引量：1: 2012年; 语音帧在声学特征空间中的位置信息可以辅助解码器对潜在路径进行筛选。传统的语音识别系统缺乏利用这种位置信息。针对这种不足,本文提出一种引导概率模型,用于描述语音帧属于声学特征空间不同局部的概率,并将其用于识别。使用引导概率后,解码器更强调对声学特征空间中最有希望的局部进行搜索,保留并扩展通过此局部空间的路径,同时弱化不经过此局部空间的路径。实验结果显示,融合引导概率的解码算法在不显著增加解码复杂度的情形下,使汉字相对错误率下降10.95%。结果分析表明,融合了语音帧声学位置信息的解码方法能够更有效地鉴别潜在路径,从而降低误识率。; 杨占磊刘文举晁浩; 关键词：语音识别系统解码算法位置信息

Integrating induced probability into decoding for large vocabulary continuous speech recognition被引量：2: 2012年; This paper integrates location information of frames into conventional acoustic model （AM） and language model （LM） likelihoods, in order to distinguish potential path can- didates more precisely at decoding stage. This paper proposes an induced probability, which represents location information of frames within the whole acoustic space. By integrating the induced probability, the decoder is directed to search within the most promising regions of acoustic space. Promising paths are enhanced and unlikely paths are weakened. Experiments conducted on Chinese Putonghua show that the character error rate is reduced by 10.95% rel- atively without increasing decoding complexity significantly. Finally, pruning analysis shows that integrating location information of frames into traditional decoding framework is helpful for improving system performance.; YANG Zhanlei LIU Wenju CHAO Hao

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家重点基础研究发展计划(2004CB318105)