国家重点基础研究发展计划(2013CB329302) 作品数:24 被引量:182 H指数:7 相关作者: 颜永红 郑方 应冬文 李军锋 许春冬 更多>> 相关机构: 中国科学院 清华大学 中国科学院大学 更多>> 发文基金: 国家重点基础研究发展计划 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 电子电信 自动化与计算机技术 医药卫生 理学 更多>>
口语对话状态追踪的研究 被引量:1 2017年 口语对话系统是最自然的人机交互界面之一。然而语音识别和口语理解模块带来的级联错误会对用户体验造成很大影响,在嘈杂的环境中更为严重。对话状态跟踪器可根据对话的上下文和可观测到的语音识别、理解结果对各个回合的对话状态做出估计。因此,提出一种由数据驱动基于鉴别式模型的对话状态追踪方法,能够处理更大规模的特征集,特征函数依赖于可观测的全部N-best结果。通过在真实语音数据集上进行评测,实验结果表明,该方法比单纯使用1-best结果的基线系统具有更强的性能。 任航 徐为群 颜永红Predicting the Popularity of Messages Based on Big Data Social media has been an important way for people to get news.It is designed to make the sharing of messages v... Jun Zhou Guiping Wu Manshu Tu Bing Wang Yan Zhang Yonghong Yan;关键词:SPARK 文献传递 迭代数控制的稀疏约束波束形成算法 2018年 研究了基于L1范数约束的快速迭代算法,分析了其迭代过程以及与波束形成算法相结合的方式。提出了一种基于迭代数控制的波束形成算法,并给出了实现过程。所提算法避免了现有算法对信噪比估计的依赖,并提高了算法在低信噪比环境下的干扰抑制能力。经验证,该方法在维持了较低复杂度的前提下,其信干噪比在不同信噪比条件下的稳健性要优于对比算法。 曹占中 胡冬妮 李煦 李煦 颜永红关键词:波束形成 自适应滤波 阵列信号处理 基于人耳听觉特性的房间冲激响应多点均衡 2017年 在以扬声器-房间系统为代表的音频重放系统中,整个房间的声学特性会受到扬声器的系统响应、房间反射等影响而产生失真。房间冲激响应的失真会影响声音信号的音质,进而降低听者的听音感受,因此必须对房间冲激响应进行均衡。考虑到人耳听觉具有主观性和单点均衡存在的均衡有效区域局限性等问题,提出了基于人耳听觉特性的房间冲激响应多点均衡算法。通过在传统均衡滤波器设计中加入适当响度滤波器,使代价函数由声压转变为响度,实现均衡结果由数学最佳转为听觉最佳。利用在不同位置的房间冲激响应数据进行均衡滤波器的设计,实现从单点均衡到多点均衡的优化,扩大均衡有效区域。 房倩倩 姚鼎鼎 李军锋 夏日升关键词:最小均方误差 生物特征识别技术综述 被引量:45 2016年 基于生物特征识别技术的身份认证是社会高度信息化和经济全球化的需求,是政府和商业领域必不可少的重要技术.为此,介绍了生物特征识别技术的基本原理、性能指标、关键技术、研究现状和技术应用等.全面调研了指纹、掌纹、虹膜、人脸、指静脉、声纹等不同的生物特征识别技术的研究现状,比较了各种生物特征识别技术在错误率、稳定性、实用性、处理速度和仿冒程度等方面的差异.此外,针对辨认和确认2种场景分别介绍了它们在各方面的应用情况,分析讨论了生物特征融合技术、生物特征安全性问题,介绍了该领域现有的行业和国家标准.最后对生物特征识别技术的发展前景给予展望. 郑方 艾斯卡尔.肉孜 王仁宇 李蓝天关键词:生物特征识别 身份认证 声纹 人脸 掌纹 虹膜 互联网时代语音识别基本问题 被引量:14 2013年 语音识别技术经过半个世纪的积累,于近年来达到大规模商用水平.本文概括了统计语音识别理论的发展状况,并单独介绍了深度神经网络在声学建模、语言建模、多语言共享、语义识别等方面的卓越性能.深度神经网络的性能优势引起了我们强烈的兴趣.通过回顾类人听觉信息处理对深度神经网络的改进作用,我们意识到,深度神经网络与类人听觉信息处理相结合,必将推进语音识别技术的进一步发展.反过来,深度神经网络技术在语音识别中的进步,也必将推动类人听觉信息处理技术的进步.语音识别技术后续发展的重点是对深度神经网络的结构和训练算法的改进使之更好地实现类人听觉.最后,我们分析了采用深度神经网络模拟人类听觉的抗噪修复机理和听觉关注机理的可能性. 柯登峰 徐波关键词:信号处理 语音识别 神经网络 基于PLAR的说话人确认系统的噪音鲁棒性 被引量:2 2013年 针对Mel频率倒谱系数(Mel frequency cepstralcoefficient,MFCC)特征的说话人确认系统在干净语音环境下具有很高识别率但在噪音环境下识别率急剧下降的缺点,构建了基于感知对数面积比系数(perceptual log area ratio,PLAR)特征的说话人确认系统,并对该系统的噪音鲁棒性进行研究。结果表明:PLAR特征具有较强的噪音鲁棒性。将PLAR与MFCC进行特征域和分数域的融合,利用两者之间存在着的互补性,可有效提高说话人确认系统的识别性能。 尹聪 白静 龚宬 张陈昊 郑方 Waleed H.Abdulla关键词:说话人确认 鲁棒性 基于全局词汇信息的中文口语句子标点生成 标点生成对语音识别非常重要,它既增加了文本的可读性和用户体验,又有利于后续自然语言处理模块。本文提出了一种利用纯文本信息添加中文口语句子句末标点的方法。该方法从句子的不同粒度角度,建模全局词汇信息与标点的关系,并使用多层... 陈萧 柯登峰 徐波关键词:全局信息 文献传递 说话人识别中的分数域语速归一化研究 语速变化将导致语音频谱畸变,进而导致说话人识别系统性能显著下降。本文提出一种分数域归一化方法来降低语速变化对说话人识别系统的影响。在全局归一化算法中,不同语速语音的语音数据组成一个全局参考集合,对每一个登入的说话人估计该... 艾斯卡尔·肉孜 王东 李蓝天 郑方 张晓东 金磐石关键词:说话人识别 文献传递 改进的用于口语处理的基频提取算法 被引量:5 2017年 针对口语语音处理中的基频提取,提出了一种改进的自相关函数基频提取算法。该算法在原始自相关函数方法的基础上,通过利用语音频谱的纹理特征来提高正确基频值的权重,利用增加候选基频的个数来增大搜索空间,以及利用可靠种子来限制搜索路径这3项措施增加了正确基频值在搜索空间中的出现比例和权重,优化了搜索空间,从而改善了原有基频提取算法的性能。在数据集Keele和FDA上的实验结果显示:与原始算法相比,本文算法的有声错误率相对减少28.74%,总体错误率相对减少5.53%,更适合于口语处理。 陈萧 徐波关键词:语音信号处理 基频提取 自相关函数