您的位置: 专家智库 > >

蔡锐

作品数:10 被引量:36H指数:4
供职机构:清华大学信息科学技术学院计算机科学与技术系更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术电子电信语言文字更多>>

文献类型

  • 6篇会议论文
  • 4篇期刊文章

领域

  • 6篇自动化与计算...
  • 4篇电子电信
  • 1篇语言文字

主题

  • 2篇语音
  • 2篇语音合成
  • 2篇混淆
  • 2篇海量
  • 2篇汉语
  • 1篇多模态
  • 1篇新闻
  • 1篇新闻视频
  • 1篇信息处理
  • 1篇音乐检索
  • 1篇音频
  • 1篇音频检索
  • 1篇语料
  • 1篇语料库
  • 1篇声调
  • 1篇声学
  • 1篇视频
  • 1篇视频分类
  • 1篇数据库
  • 1篇数据库管理

机构

  • 10篇清华大学

作者

  • 10篇蔡锐
  • 8篇蔡莲红
  • 4篇王愈
  • 3篇吴志勇
  • 2篇徐英进
  • 2篇杨士强
  • 2篇王鹏
  • 1篇崔丹丹
  • 1篇陶建华
  • 1篇李彬
  • 1篇刘涛

传媒

  • 2篇清华大学学报...
  • 1篇电子学报
  • 1篇中文信息学报
  • 1篇第二届和谐人...
  • 1篇第十四届全国...

年份

  • 1篇2007
  • 2篇2006
  • 5篇2005
  • 1篇2003
  • 1篇2002
10 条 记 录,以下是 1-10
排序方式:
语音合成中基于听辨指导的权重训练算法被引量:4
2005年
针对语音合成的基元选取中权重设定的问题提出了一种基于人工听辨指导的权重自动训练的方法。该方法首先通过人工听辨对现有的基元选取结果进行评测打分,然后采取韵律逼近的方法对人工评测的结果进行学习,进而对权重进行调整修正,从而实现权重的自动训练。实验表明:该方法较好地解决了权重设定的问题,使得合成语音的自然度听辨得分由3.49提高到4.02。同时,该方法还使得语音合成系统在使用过程中根据用户反馈自动进行优化成为可能。
吴志勇蔡莲红蔡锐
关键词:语音合成文语转换
汉语普通话语音合成语料库TH-CoSS的建设和分析被引量:16
2007年
本文介绍了汉语语音合成语料库TH-CoSS的建设和分析。本语料库包括男女声朗读语句约2万个。语料库分为四个部分:TTS系统建库用语句、TTS系统测试用语句、特殊语调语句和特殊音节组。语料设计考虑了语料的平衡和音段、韵律信息的丰富。语料库中除了文本、语音数据外,还带有音段切分标志,标注文件采用XML格式。为了方便语音分析与开发,特研制了标注软件。本文还给出了语境特征对语音韵律影响的分析结果。
蔡莲红崔丹丹蔡锐
关键词:计算机应用中文信息处理语音合成汉语语料库
一种基于“乐纹”的海量音乐检索系统
声音也可以有指纹(fingerprinting),它是音频对象的一种简短的概要,有时也称为robustsummaries,robustsignatures,perceptual hashes或robust hashes。...
徐英进王愈蔡锐蔡莲红
关键词:音乐检索
文献传递
语音合成语料库的设计与声学特征分析
<正> 1 引言近年来,基于大语料库的TTS技术迅速发展,推动了语音语料库的研究和建设。许多国家都建立了大量的语音语料库,如美国、日本、瑞典、芬兰等。我们面对语音合成的需求,设计并建立了相应的语料库。该语料库包括文本、语...
蔡莲红蔡锐吴志勇陶建华
文献传递
网球视频分析的运动向量场变换算法被引量:4
2005年
 网球比赛中摄像机与球场平面成一倾角,利用运动估计难以获得球员的真实跑动信息,且容易受到大量随机噪声干扰.本文基于针孔摄像机模型,提出一种运动向量场变换算法,提高基于运动向量场特征分析网球视频的性能.该算法利用前景物体掩蔽和全局运动补偿技术,去除随机噪声干扰.实验结果验证了本文算法的有效性和稳定性.
王鹏蔡锐李彬杨士强
音乐情感分类中关键问题的研究
随着基于内容的音乐检索的研究不断深入,音乐情感分类的重要性也逐渐凸现出来.本文基于一个音乐情感分类系统,对其中的'情感段预切分'和'声学特征在情感分类中的适用度'等问题进行了较为深入的探讨和研究,提出了一种切分情感段的方...
王愈蔡锐蔡莲红
文献传递
音乐情感分类中关键问题的研究
随着基于内容的音乐检索的研究不断深入,音乐情感分类的重要性也逐渐凸现出来。本文基于一个音乐情感分类系统,对其中的“情感段预切分”和“声学特征在情感分类中的适用度”等问题进行了较为深入的探讨和研究,提出了一种切分情感段的方...
王愈蔡锐蔡莲红
文献传递
一种基于'乐纹'的海量音乐检索系统
声音也可以有指纹(fingerprinting),它是音频对象的一种简短的概要,有时也称为robust summaries, robust signatures,perceptual hashes或robust hash...
徐英进王愈蔡锐蔡莲红
关键词:音频检索版权管理数据库管理
文献传递
“文本为主”的多模态特征融合的新闻视频分类算法被引量:13
2005年
视频分类算法通过融合多模态特征提高分类性能。大多数多模态特征融合算法采用统一模式处理不同模态特征,忽略文本与声音/图像特征在视频分类能力和可靠性方面的差异。该文提出一种新闻视频分类算法,采用文本为主,声音/图像为辅的特征融合模式。该算法充分考虑文本特征在内容分类方面的高可靠性,并在适当情况下,辅以声音/图像信息为补充。对10类新闻视频进行分类实验,并与其他两种分类算法对比,表明在提取相同的底层特征情况下,该文算法的平均分类性能最佳。
王鹏蔡锐杨士强
关键词:视频分类多模态
汉语声调音域规范模型初探
本文在分析大规模语音数据库中音节声学参数的基础上,提出了汉语声调音域规范模型(ToRN)。该模型根据去声音节高音点基频均值和上声音节低音点均值确定音域上限和下限,并依据其他声调音节的基频与音域的关系,建立了汉语声调音域规...
蔡莲红刘涛吴志勇蔡锐
文献传递
共1页<1>
聚类工具0