公共文化服务平台

共 8 条记录，以下是 1-9

全选清除导出

排序方式：

自由表述口语语音评测后验概率估计改进方法被引量：3: 2017年; 该文研究了两种用于改善深度神经网络声学建模框架下自由表述口语语音评测任务后验概率估计的方法:1)使用RNN语言模型对一遍解码N-best候选做语言模型得分重估计来获得更准确的识别结果以重新估计后验概率;2)借鉴多语种神经网络训练框架,提出将方言数据聚类状态加入解码神经网络输出节点,在后验概率估计中引入方言似然度得分以评估方言程度的新方法。实验表明,这两种方法估计出的后验概率与人工分相关度分别绝对提升了3.5%和1.0%,两种方法融合后相关度绝对提升4.9%;对于一个真实的评测任务,结合该文改进的后验概率评分特征,总体评分相关度绝对提升2.2%。; 许苏魁戴礼荣魏思刘庆峰高前勇; 关键词：后验概率

一种基于AOS格式的多相水平集快速分割方法被引量：1: 2015年; 采用迎风格式的水平集算法实现需要在曲线演化过程中重新初始化水平集函数的要求,为保证算法的稳定,时间步长选取较小值,算法运行速度较慢.文中基于无须重新初始化的水平集方法,在算法数值实现中引入AOS半隐格式,对基于不同统计模型的水平集分割算法给出统一的数值实现.以二相水平集分割算法为基础提出一种新的多相水平集分割方法.该方法采用一个水平集函数进行多次演化实现多区域分割,其优点包括:1)采用AOS半隐格式,该格式无条件稳定,可采用较大的时间步长;2)对多个统计模型进行统一处理;3)采用单一的水平集函数进行演化,减少水平集演化方程的数量,算法更加灵活.实验结果表明,该方法具有较快的分割速度,对具有多个区域的图像能够进行较准确的分割.; 闫沫水鹏朗; 关键词：图像分割重新初始化

基于深层置信网络的说话人信息提取方法被引量：5: 2013年; 在基于全差异空间因子(i-Vector)的说话人确认系统中,需进一步从语音段的i-Vector表示中提取说话人相关的区分性信息,以提高系统性能.文中通过结合锚模型的思想,提出一种基于深层置信网络的建模方法.该方法通过对i-Vector中包含的复杂差异信息逐层进行分析、建模,以非线性变换的形式挖掘出其中的说话人相关信息.在NIST SRE 2008核心测试电话训练-电话测试数据库上,男声和女声的等错误率分别为4.96%和6.18%.进一步与基于线性判别分析的系统进行融合,能将等错误率降至4.74%和5.35%.; 陈丽萍王尔玉戴礼荣宋彦; 关键词：说话人确认

采用M-矢量和支持向量机的说话人确认系统被引量：2: 2014年; 将UBM子空间中的说话人MLLR自适应得到的M-矢量应用于SVM中,提出了一种新的说话人确认系统.该系统有效地将扰动属性映射算法整合到SVM核函数中,实现在核空间中直接对M-矢量进行信道补偿,从而提高系统对信道干扰的鲁棒性能.实验结果表明:相比传统基于音素类的MLLR-SVM和基于I-矢量的I-vector-SVM基线系统,在不需要大量有文本内容标注的语音数据、复杂度和运算量都很高的自动语音识别系统、因子空间统计量的估计的情况下,本系统可获得与最好的基线系统几乎相当的性能,同时还表现出很强的互补特性.在NIST SRE2008说话人评测数据库上测试结果表明:提出系统的性能与基于I-矢量的说话人确认系统的性能接近,并表现出很强的互补性,融合后的等错误率相对下降了13.3%.; 龙艳花戴礼荣; 关键词：语音识别说话人确认支持向量机

采用深度神经网络的说话人特征提取方法被引量：8: 2017年; 在说话人确认中,通常采用的声学特征(如MFCC,PLP特征等)包含的主要是文本信息和信道信息,说话人信息属于其中的弱信息,极易受到语音信号中的文本信息及信道、噪声等干扰的影响.针对这个问题,提出一种基于深度神经网络提取语音信号中说话人特征的方法,该方法用语音识别深度神经网络各个隐层非线性输出值来提取说话人特征.在RSR2015数据库上开展了GMM-UBM文本无关和文本相关说话人确认实验,实验结果表明本文方法提取的特征相对于传统的MFCC特征,系统等错误率(Equal Error Rate,EER)有了明显的下降.; 张涛涛陈丽萍蒋兵戴礼荣; 关键词：说话人确认

说话人确认中以音素为中心的特征端因子分析被引量：1: 2016年; 在说话人确认中,特征端因子分析(Acoustic Factor Analysis,AFA)利用MPPCA(Mixtures of Probabilistic Principal Component Analyzers,MPPCA)算法在通用背景模型(Universal Background Model,UBM)的每个高斯上分别对特征降维以去除语音特征中文本、信道和噪声等信息的干扰,获得增强的说话人信息并用于提升说话人确认的性能。但是通用背景模型属于无监督的聚类方法,其每个高斯成分物理意义不够明确,不能区分不同说话人发不同音素时的情况。为解决这一问题,本文利用语音识别中的声学模型深度神经网络(Deep Neural Network,DNN)取代传统的通用背景模型并结合特征端因子分析分别对不同音素上的语音特征进行降维提取出说话人信息,进而提取DNN i-vector用于说话人确认。在RSR2015数据库Part III上的实验结果表明该方法相对于基于UBM的特征端因子分析方法在男女测试集上等错误率(Equal Error Rate,EER)分别下降13.49%和22.43%。; 张涛涛陈丽萍戴礼荣; 关键词：说话人确认

深度语音信号与信息处理:研究进展与展望被引量：29: 2014年; 首先对深度学习进行简要的介绍,然后就其在语音信号与信息处理研究领域的主要研究方向,包括语音识别、语音合成、语音增强的研究进展进行了详细的介绍。语音识别方向主要介绍了基于深度神经网络的语音声学建模、大数据下的模型训练和说话人自适应技术;语音合成方向主要介绍了基于深度学习模型的若干语音合成方法;语音增强方向主要介绍了基于深度神经网络的若干典型语音增强方案。最后对深度学习在语音信与信息处理领域的未来可能的研究热点进行展望。; 戴礼荣张仕良; 关键词：语音识别语音合成语音增强

基于多GPU的深层神经网络快速训练方法: 近年来,深层神经网络（Deep Neural Network,DNN）被成功应用于语音识别领域,成为一种很具发展潜力的语音识别模型。然而,由于其训练算法复杂度高,随着训练数据和网络规模增大,DNN模型训练将非常耗时。为提...; 薛少飞宋彦戴礼荣; 关键词：DNN GPU 音素识别

基于深层神经网络的藏语识别被引量：14: 2015年; 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%.; 袁胜龙郭武戴礼荣; 关键词：藏语连续语音识别数据驱动

全选清除导出

共1页<1>

国家自然科学基金(61273264)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61273264)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈