国家自然科学基金(61005052)
- 作品数:4 被引量:6H指数:2
- 相关作者:陈毅东罗凌史晓东苏劲松黄哲煌更多>>
- 相关机构:厦门大学更多>>
- 发文基金:国家自然科学基金福建省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术更多>>
- 引入韵律结构信息的层次短语模型改进研究
- 2013年
- 随着自然语言处理研究的不断深入,人们不但迫切需要挖掘文本更多的潜在语言学信息,而且还力图通过机器学习预测这些潜在的语言学知识,以便更加有效地提高机器翻译的性能,同时为计算语言学服务。韵律作为语音学方面的知识,已经广泛用于到语音合成、文音转换、语音翻译各个语音方面,对基于语音的自然语言处理起到不可替代的作用。该文对韵律信息如何,并以何种方式改进机器翻译进行了介绍,并通过实验验证韵律信息对层次短语模型有改进。
- 甘星超陈毅东
- 关键词:统计机器翻译计算语言学语音学
- 基于层次聚类的中文词义归纳(英文)被引量:1
- 2010年
- 词义归纳的目标是在一个语料库中自动识别多义词的语义,使用词义比单纯的使用词形能够改善信息检索、信息抽取和机器翻译的结果。无监督的词义归纳可以看成一个聚类问题,在本论文我们使用层次聚类的方法来解决词义归纳问题。实验证明,该系统可以达到72%的F-Score。
- 蔡科史晓东陈毅东黄哲煌
- 关键词:层次聚类算法
- 微博观点句识别的话题影响研究被引量:2
- 2014年
- 为了从海量的网络信息中迅速准确地获取评价信息,观点句识别已经成了自然语言处理的一个研究热点。现在观点句识别系统大都是基于机器学习的方法,一般使用机器学习的方法来进行分类会受到领域差异性影响。针对这个问题,该文对微博观点句识别系统是否会受到微博话题影响做了经验性研究,同时为了弥补训练数据的不足,该文通过规则方法自动标注网络数据进行了训练集的扩充。实验结果表明,微博话题间存在差异,进行分话题模型训练可以提升微博观点句识别系统的性能。
- 罗凌陈毅东曹茂元
- 基于复述技术的汉语成语翻译方法研究被引量:3
- 2015年
- 汉语成语是汉语的精华,拥有特有的语言形式,并经常出现在汉语中。但是由于汉英统计机器翻译训练语料中成语的稀疏性和现今大多机器翻译系统并没有对成语进行特殊的处理和研究,在汉英机器翻译中成语的翻译并不理想。针对该问题,本文提出了基于复述技术的两种方法来提高汉英统计机器翻译系统中成语翻译的能力。方法1:测试集成语复述替换;方法2:训练集成语复述替换。实验结果表明,方法1可以解决成语未登录词问题,提高成语翻译能力。方法2可以解决训练语料中成语稀疏问题,改善翻译训练模型。
- 罗凌陈毅东史晓东苏劲松
- 关键词:统计机器翻译成语翻译复述