您的位置: 专家智库 > >

国家自然科学基金(61001188)

作品数:7 被引量:10H指数:2
相关作者:王晶谢湘匡镜明那兴宇杨立东更多>>
相关机构:北京理工大学内蒙古科技大学更多>>
发文基金:国家自然科学基金国家教育部博士点基金内蒙古自治区自然科学基金更多>>
相关领域:电子电信更多>>

文献类型

  • 6篇期刊文章
  • 1篇会议论文

领域

  • 7篇电子电信

主题

  • 3篇语音
  • 2篇语音合成
  • 2篇矢量
  • 2篇矢量量化
  • 2篇HMM
  • 2篇大尺度
  • 1篇带噪语音
  • 1篇倒谱
  • 1篇多分辨
  • 1篇多分辨率
  • 1篇多分辨率分析
  • 1篇音频
  • 1篇音频分类
  • 1篇速率
  • 1篇特征波形
  • 1篇频分
  • 1篇自适
  • 1篇自适应
  • 1篇自适应算术编...
  • 1篇小波

机构

  • 6篇北京理工大学
  • 1篇内蒙古科技大...

作者

  • 4篇匡镜明
  • 4篇王晶
  • 4篇谢湘
  • 2篇那兴宇
  • 1篇马多佳
  • 1篇杨立东
  • 1篇杨果
  • 1篇解廷福

传媒

  • 2篇中国科技论文...
  • 1篇电声技术
  • 1篇清华大学学报...
  • 1篇信号处理
  • 1篇Journa...

年份

  • 1篇2015
  • 1篇2014
  • 1篇2013
  • 4篇2011
7 条 记 录,以下是 1-7
排序方式:
用于统计语音合成的大尺度压缩HMM的方法
统计语音合成使用隐Markov模型(HMM)作为声学特征的统计模型。提出了一种利用声学模型空间距离进行HMM的大尺度压缩的量化方法,通过对矢量量化码本进行的优选迭代步骤,减小压缩后的声道谱模型与原模型之间的声学距离,使通...
那兴宇谢湘匡镜明何娅玲
关键词:矢量量化
文献传递
Mapping methods for output-based objective speech quality assessment using data mining被引量:2
2014年
Objective speech quality is difficult to be measured without the input reference speech.Mapping methods using data mining are investigated and designed to improve the output-based speech quality assessment algorithm.The degraded speech is firstly separated into three classes(unvoiced,voiced and silence),and then the consistency measurement between the degraded speech signal and the pre-trained reference model for each class is calculated and mapped to an objective speech quality score using data mining.Fuzzy Gaussian mixture model(GMM)is used to generate the artificial reference model trained on perceptual linear predictive(PLP)features.The mean opinion score(MOS)mapping methods including multivariate non-linear regression(MNLR),fuzzy neural network(FNN)and support vector regression(SVR)are designed and compared with the standard ITU-T P.563 method.Experimental results show that the assessment methods with data mining perform better than ITU-T P.563.Moreover,FNN and SVR are more efficient than MNLR,and FNN performs best with 14.50% increase in the correlation coefficient and 32.76% decrease in the root-mean-square MOS error.
王晶赵胜辉谢湘匡镜明
基于分数阶倒谱的带噪语音基频跟踪方法被引量:1
2011年
分数阶傅里叶变换(FrFT)是一种同时融合了信号在时域和频域的信息的时频分析工具。利用分数阶傅里叶变换在频率随时间变化的信号进行分析的优势,结合语音信号处理中获得语音信号的声道和激励信息的重要手段之一的倒谱分析,以适当的信干比定义作为搜索准则进行自适应搜索合适的变换阶数,使得基于分数阶傅里叶变换的倒谱更能够体现语音信号频率的时变特性。通过对带噪汉语元音的基频跟踪实验,可以看到基于分数阶傅里叶变换倒谱的语音基频提取方法的效果比传统基于傅里叶变换的倒谱更准确。
马多佳谢湘王晶匡镜明
关键词:分数阶傅里叶变换倒谱
基于算术编码的AMR-WB参数变速率压缩被引量:2
2013年
提出了一种新颖的利用自适应算术编码对AMR-WB自适应多速率宽带语音编码标准中的ISP(Immit-tance Spectral Pairs)即导抗谱对系数、自适应码本索引、固定码本索引、码本增益进行压缩的方法。基于该方法进一步去除了AMR-WB编码标准中量化后参数的冗余,提高了压缩效率,并且得到了一种可变速率的编码算法。通过对大量语音和音频信号的测试,此方法在保证语音和音频效果及原始编码相同的情况下,在压缩效果上平均能节省5.97%的比特率。
解廷福杨果王晶
关键词:自适应算术编码可变速率
基于Tucker分解的音频分类研究被引量:3
2015年
提出一种利用Tucker分解获得鲁棒性较强的音频信号不同属性的特征,在高斯混合模型上测试音频信号分类性能的方法。音频信号经过预处理后,提取其不同类型特征集合,包括常规声学特征参数集合、听觉感知特征参数集合、心理声学特征参数集合;然后由三种特征集合构建三阶特征张量,通过Tucker分解得到每一类特征阶投影矩阵并进行主分量分析;最后使用包括音乐、语音、噪声3种类型的300条音频数据测试不同特征集合的分类效果,在此过程中使用了有监督学习的高斯混合模型作为分类器。实验中比较了不同特征集合使用高斯混合模型的分类正确率。实验结果表明,Tucker分解获得的特征集合实现了较好的分类,说明该方法性能优于传统特征集合。
杨立东王晶谢湘匡镜明
关键词:音频分类高斯混合模型
基于多分辨率分析的特征波形分解与重构算法被引量:2
2011年
基于多分辨分析的思想,用双正交小波滤波器组对波形内插编码中提取的特征波进行多级分解和重构。二维特征波表面被分解为一系列时间分辨率递减的波平面,可以利用人耳对缓变和快变成分的感知重要性不同对各层的特征波形幅度谱进行不同精度的量化,相对于传统的低通滤波波形分解过程能够更好地对特征波序列进行多尺度的描述,有利于增强编码效果。借助基于时域设计的最小相位滤波器对特征波平面进行多级分解与重构,解决了用小波变换方法产生较大延迟的问题,有利于实时编码。
王晶那兴宇谢湘匡镜明
关键词:波形内插多分辨率分析小波变换
用于统计语音合成的大尺度压缩HMM的方法
2011年
统计语音合成使用隐Markov模型(HMM)作为声学特征的统计模型。提出了一种利用声学模型空间距离进行HMM的大尺度压缩的量化方法,通过对矢量量化码本进行的优选迭代步骤,减小压缩后的声道谱模型与原模型之间的声学距离,使通过量化模型合成的语音更加接近未量化模型。主观和客观测试结果显示:使用该方法进行声道谱模型的压缩,在压缩至原模型大小的0.06左右时,仍有约90%的评价得分认为合成语音的质量没有明显下降。
那兴宇谢湘匡镜明何娅玲
关键词:矢量量化
共1页<1>
聚类工具0