您的位置: 专家智库 > >

国家高技术研究发展计划(2006AA010103)

作品数:16 被引量:39H指数:4
相关作者:徐波梁家恩王士进韩纪庆李宏言更多>>
相关机构:中国科学院自动化研究所哈尔滨工业大学青岛科技大学更多>>
发文基金:国家高技术研究发展计划国家重点基础研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信理学一般工业技术更多>>

文献类型

  • 16篇期刊文章
  • 11篇会议论文

领域

  • 16篇自动化与计算...
  • 9篇电子电信
  • 1篇一般工业技术
  • 1篇语言文字
  • 1篇理学

主题

  • 8篇语音
  • 7篇信息处理
  • 5篇语言
  • 5篇语言学
  • 5篇语言学习
  • 4篇语音识别
  • 4篇说话人识别
  • 4篇中文
  • 4篇中文信息
  • 4篇中文信息处理
  • 3篇说话人
  • 3篇评分
  • 3篇计算机
  • 3篇计算机辅助语...
  • 3篇计算机辅助语...
  • 3篇计算机应用
  • 3篇关键词检测
  • 3篇辅助语言
  • 2篇单词
  • 2篇音素识别

机构

  • 17篇中国科学院自...
  • 5篇哈尔滨工业大...
  • 3篇中国科学院
  • 2篇青岛科技大学
  • 1篇北京大学
  • 1篇哈尔滨理工大...

作者

  • 16篇徐波
  • 8篇梁家恩
  • 5篇韩纪庆
  • 5篇王士进
  • 4篇李宏言
  • 4篇李鹏
  • 3篇柯登峰
  • 3篇郑榕
  • 3篇孟猛
  • 2篇王欢良
  • 2篇黄申
  • 2篇丁鹏
  • 2篇王晓瑞
  • 2篇何勇军
  • 1篇江杰
  • 1篇浦剑涛
  • 1篇浦剑涛
  • 1篇阳曦
  • 1篇郑铁然
  • 1篇曲天书

传媒

  • 4篇中文信息学报
  • 3篇自动化学报
  • 3篇第九届全国人...
  • 2篇模式识别与人...
  • 2篇清华大学学报...
  • 1篇声学学报
  • 1篇北京大学学报...
  • 1篇计算机学报
  • 1篇高技术通讯
  • 1篇微计算机信息

年份

  • 3篇2011
  • 4篇2010
  • 8篇2009
  • 3篇2008
  • 9篇2007
16 条 记 录,以下是 1-10
排序方式:
基于音素聚类的多语言声学建模方法被引量:1
2009年
首先提出以音素合并后模型自身似然度下降为距离依据,通过聚类生成多语言通用音素的声学建模方法.在此基础上,比较聚类时增加两种约束条件(同一语种内音素不聚类、不同IPA族的音素不聚类)对性能的影响.同时,对通用音素集的规模对识别性能的影响做了一定探索.最后的实验给出建立中英文双语混合模型在关键词检测系统上的结果,比较4种聚类方法在不同通用音素个数情况下的性能优劣.结果显示,使用本文方法进行一定程度的音素合并,性能比不作聚类直接混合建模有明显提升.适当增加音素聚类的约束,有助于进一步提高性能.
孟猛梁家恩徐波
关键词:关键词检测
一种语音频带扩展的方法及其改进
在语音通信系统中,由于信道频带的限制或编码的原因,语音的频带被控制在0.3kHz~3.4kHz的范围内,这损失了语音的质量和可懂度。近年来,语音频带的人工扩展应运而生,也就是在接收端通过窄带语音信号生成宽带语音信号,补偿...
何勇军韩纪庆
关键词:频带扩展
文献传递
一种快速说话人搜索算法被引量:1
2008年
随着音频数据的不断增加,说话人识别已经变得越来越困难。本文提出了一种新颖的方法,在已有的说话人识别系统(GMM-UBM系统)的基础上,综合利用Index和Simulation,以很小的代价,极大地提高了说话人识别的速度,从而使说话人搜索成为可能。具体而言,就是采用两遍搜索策略,首先通过建立索引,在索引空间,比较索引间的欧氏距离,粗略地筛选出一定量的候选说话人目标;然后在此基础上,通过更精细的Simulation模型匹配,找出最佳的识别结果。实验结果显示我们的方法能以很小的代价,显著地提高说话人识别的速度。
朱磊江杰郑榕徐波
关键词:计算机应用中文信息处理说话人识别
一种基于互补声学模型的多系统融合语音关键词检测方法被引量:3
2009年
采用一种基于互补声学模型的多系统融合方法来获得高性能的语音关键词检测系统:1)在基线系统的基础上,使用不同的音素集进行声学建模,并引入基于神经网络的声学建模方法,获得另外两套具有建模差异性的声学系统;2)在多套关键词检测系统的基础上,通过选择有效的系统融合准则,将多个系统的输出进行整合,获得更好的语音关键词检测结果.该方法充分利用了差异性声学建模系统之间的互补性,在不增加训练数据的情况下,显著地提升了最终系统的性能.和基线系统相比,该方法在2005年国家863电话语音关键词检测技术评测集上,在等错误率(Equal error rate,EER)指标下,获得相对21.6%的显著性能提升.
孟猛王晓瑞梁家恩徐波
关键词:关键词检测高斯混合模型神经网络
一个面向广播语音识别的语言模型自适应框架
2007年
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度(PPL)的背景语料筛选方法和一个N-gram概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10%,实体词识别准确率提高了4%。
王晓瑞丁鹏梁家恩徐波
关键词:计算机应用中文信息处理
一种快速说话人搜索算法
随着音频数据的不断增加,说话人识别已经变得越来越困难。本文提出了一种新颖的方法,在己有的说话人识别系统(GMM-UBM 系统)的基础上,综合利用 Index 和 Simulation, 以很小的代价,极大的提高了说话人识...
朱磊江杰郑榕徐波
关键词:说话人识别
文献传递
辅助语音评分系统中一种流利度自动评分方法被引量:5
2009年
流利度评分是目前计算机辅助自动发音评分系统中一个重要组成部分。为了解决流利度特征表述中和内容、韵律等高级表述技巧相关的广义流利问题,该文提出了一种能够全面客观地评价口语流利度通顺性和韵律性的评分方法。该方法除了通顺性之外,可以提取停顿、韵律、连读和失去爆破等特征;评分过程中,系统采用多层次融合方法,分别从句子级和篇章级提取流利度特征,其中篇章级得分由句子级加权得分和篇章级特征进行融合得到。在实验中,分别以机器得分和人工平均分的相关度、均方差等指标比较了多元线性回归(LR)、BP神经网络、支持向量回归机(SVR)3种算法的性能。结果表明:基于非线性建模的BP神经网络和支持向量回归机拟合的得分模型要好于多元线性回归;该方法可以作为一个重要指标,应用在计算机辅助语音评分系统中。
黄申李宏言王士进梁家恩徐波
关键词:计算机辅助语言学习语音识别流利度
语音识别中带宽失配的补偿研究被引量:4
2011年
目前的语音识别系统在训练环境与测试环境匹配的情况下具有很高的识别率,而当环境失配时,其性能将急剧下降.作者研究发现,带宽失配,即训练语料和测试语料带宽不一致,也是引起环境失配的主要原因之一.当测试语音带宽比训练语音带宽窄时,丢失的频段不可逆,且其影响在倒谱域或对数频谱域上是时变的,因而无法用目前的信道补偿方法补偿.文章在分析丢失频段对梅尔频率倒谱系数影响的基础上,提出了用频谱折叠方法对窄带测试语音进行补偿.在此基础上给出了语音带宽检测算法和带宽补偿统一框架.在AN4和TIMIT/NTIMIT数据库上的实验表明,该框架能有效增强语音识别系统在带宽失配情况下的鲁棒性.
何勇军韩纪庆
关键词:鲁棒性语音识别
一种改进的单声道混合语音分离方法
2009年
在回顾了基于语音客观质量评估和计算听觉场景分析的单声道混合语音分离方法的基础上,针对该方法所采用的ITU-TP.563语音客观质量评估标准存在的使用限制以及计算量大的缺点,提出了一种采用基于时域包络表示的语音客观质量评估算法来替代P.563算法的单声道混合语音分离方法,该方法在几乎不降低原方法分离性能的前提下,大大节约了算法运行所需的时间和资源消耗。
李鹏关勇刘文举徐波
关键词:语音分离计算听觉场景分析信噪比
面向第二语言学习的口语大规模智能评估技术研究被引量:8
2011年
探索英语学习以及少数民族汉语学习的有效方法是中国语言教育面临的重大问题。研究客观公正的口语智能评估与诊断技术,对于促进计算机辅助语言教学(CALL)具有重要意义。根据近年来大规模中学英语以及少数民族汉语水平考试(MHK)中口语评估的应用需求,该文总结了中国科学院自动化研究所在口语内容识别与确认、口语发音评估、口语流利度评估、口语韵律评估等几个方面的研究进展。
王士进李宏言柯登峰李鹏高鹏徐波
关键词:中文信息处理
共3页<123>
聚类工具0