国家自然科学基金(60572083)
- 作品数:9 被引量:61H指数:5
- 相关作者:刘加张卫强姚竞何珏陈恩庆更多>>
- 相关机构:清华大学郑州大学沈阳飞机设计研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:电子电信自动化与计算机技术更多>>
- 汉语连续语音中HMM模型状态数优化方法研究被引量:9
- 2006年
- 为了优化汉语连续语音中HMM模型系统以提高识别性能,提出了分别为每个声母和韵母半音节声学模型选择最优的状态数的方法。通过综合考虑每个声母和韵母半音节声学模型在不同状态数下的段长均值、方差以及各自识别率这三者信息,作为进行最优模型状态数的选择准则。优化后的声学模型系统由状态数各不相同的声母半音节声学模型组成,同未优化前状态数统一的模型系统相比,音节识别性能提高了5.07个百分点。研究表明,每个声母和韵母半音节志学模型应根据情况选择不同的状态数,优化后的模型系统识别性能得到了提高。
- 何珏刘加
- 关键词:中文信息处理声学模型语音识别
- 网络音频数据检索技术被引量:14
- 2007年
- 针对网络海量数据的应用特点,对传统的直方图算法进行了改进,采用基于主轴树的快速矢量量化技术进行预处理,采用两阶段法进行搜索处理,实验结果表明这2种方法可以显著提高检索的速度和精度。
- 张卫强刘加
- 关键词:音频检索矢量量化
- 基于TMS320VC5507的语音识别系统实现被引量:2
- 2008年
- 语音识别片上系统可以实现简单的人机交互和语音控制,在家电、玩具及各种人机交互系统中有着广泛的应用前景。本文结合汉语语音特点,在TMS320VC5507芯片上实现了高性能特定人与非特定人中小词汇量孤立词识别系统。采用基于循环缓冲区的端点检测算法,双缓冲区的传输方式用于语音录制和回放,分别采用降低特征维数的DTW算法和基于连续隐含马尔可夫模型(CDHMM)的多级搜索算法作为核心识别算法,并给出实验结果。
- 宋辉姚竞路向峰刘加
- 关键词:特定人非特定人片上系统德州仪器
- 电话语音的多说话人分割聚类研究被引量:6
- 2008年
- 为了提高电话多人语音中提取的单人语音纯度,即多说话人分割聚类处理的性能,该文在传统的分步分割聚类算法机制上增加了重分割处理,提出逐级算法增强处理机制:在分割部分,该文提出了一种基于Bayesian信息准则的分割算法,融合基于不同距离测度检测得出的分割点提高了分割点检测率;在聚类部分提出了基于BIC和交叉似然比准则(CLR)的分层聚类算法;在重分割部分引入和改进了进化隐Markov模型算法精化分割结果。该文在美国国家标准技术局(NIST)1998年度多说话人识别数据库上进行实验,聚类后性能"类纯度"比传统算法提高了10%。
- 张薇刘加
- 关键词:语音信号处理电话语音
- 网络音频数据检索技术
- 网络环境下音频检索技术是目前研究的热点问题之一。本文针对网络海量数据的应用特点,对传统的直方图算法进行了改进,采用基于主轴树的快速矢量量化技术进行预处理,采用两阶段法进行搜索处理,实验结果表明这两种方法可以显著提高检索的...
- 张卫强刘加
- 关键词:音频检索矢量量化
- 文献传递
- 电话语音双人检测算法
- 2007年
- 为了提高两个说话人情况下电话语音双人检测的性能,提出了一种基于长时距离与短时距离之和的双人语音分段算法,并对分段过程中的聚类过程进行了改进。对于分段得到的语音采用基于GMM-UBM(Gaussian mixturemodel-universal background model,GMM-UBM)模型的说话人确认算法,构成一个电话语音双人检测系统。实验结果表明:在美国国家标准技术局1999年组织的年度说话人识别评测双人检测数据库上的检测等错误率为15.1%。该算法取得了良好的效果。
- 李科刘加
- 关键词:语音信号处理说话人识别聚类
- 一种基于仿生模式识别思想的固定音频检索方法被引量:8
- 2008年
- 固定音频检索是指在待检音频中检测和定位与给定查询音频同源的音频片段,它是多媒体检索中的基本问题之一.根据仿生模式识别的基本思想,将查询段映射为高维特征空间中的点,然后考虑各种同源情况对其进行扰动,形成一个超立方体覆盖.通过逐一判断待检段是否位于该覆盖内,即可进行检索.除特征提取外,该方法不需要对待检音频进行额外的预处理.实验结果表明,在加性噪声以及压缩编码的情况下,所提算法均能够快速准确的检出目标.
- 张卫强刘加陈恩庆
- 关键词:音频检索仿生模式识别
- 嵌入式英语命令词语音识别算法研究被引量:3
- 2008年
- 本文提出了一种基于定点DSP的嵌入式英语语音命令词识别算法,并基于TI芯片建立识别系统。系统采用基于连续隐Markov模型(Continuous Density Hidden Markov Model,CDHMM)的两阶段识别策略。通过决策树结合数据驱动的状态聚类方法,一阶段模型数目研究等方法提高识别率。最后在以TI TMS320vc5502定点DSP为核心的语音处理片上系统上实现了英语语音命令识别,当DSP工作速度为200MIPs时,实时率为0.37,存储空间消耗为49.5kbyte,对于1235词的识别效果为95.4%。
- 姚竞王国梁刘加
- 关键词:语音识别嵌入式
- 语音识别SoC UniLite的系统设计被引量:2
- 2006年
- UniLite系统以DSP为核心,集成了片内存储器、AD/DA通道和多种的输入输出端口,有效控制了系统的成本和功耗,在有限的RAM空间上实现了高性能非特定人语音识别以及语音编解码的功能。系统采用连续隐含马尔科夫(CHMM)算法,运用了分阶段提取特征、束搜索等策略,在保证系统识别性能的同时大大降低了内存消耗,提高了识别速度,识别率在98.5%以上,识别时间在0.5倍实时以下。
- 杨之佐董明刘加刘润生孙旭东
- 关键词:嵌入式系统语音识别DSPSOC设计
- 基于听感知特征的语种识别被引量:21
- 2009年
- 为了在语种识别时充分利用人的听感知特性提高识别性能,提出了一种基于听感知模型的特征。听感知特征采用Gammatone滤波器组代替常用的三角滤波器组计算语音信号各子带能量;根据等效矩形带宽模型,确定各滤波器的中心频率与带宽;使用反置等响度曲线模拟人耳对信号不同频率成分的主观响度感受。在基本听感知特征的基础上,还提出了一、二阶差分特征和偏移差分特征用于语种识别。对比实验表明,该文所提的听感知特征性能均优于目前普遍使用的Mel频率倒谱系数(MFCC)特征及其衍生特征。
- 张卫强刘加
- 关键词:语音信号处理语种识别