涂兆鹏
- 作品数:9 被引量:4H指数:1
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 一种基于分类的平行语料选择方法被引量:4
- 2013年
- 大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。
- 王星涂兆鹏谢军吕雅娟姚建民
- 关键词:统计机器翻译
- 基于多粒度的英汉人名音译
- 是解决人名翻译的重要方法。在英汉人名音译问题中,翻译粒度问题一直是研究的重点之一。本文提出一种基于多粒度的英汉人名音译方法。将多种粒度的英文切分通过词图进行融合,并使用层次短语模型进行解码,从而缓解了由于切分错误而导致的...
- 于恒涂兆鹏刘群刘洋
- 利用依存限制抽取长距离调序规则
- 长距离调序仍然是大多数统计机器翻译系统的一个重要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大...
- 涂兆鹏刘群林守勋
- 关键词:统计机器翻译
- 文献传递
- 利用依存限制抽取长距离调序规则
- 2011年
- 长距离调序是统计机器翻译领域的一个重要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大解码内存和时间消耗。为了解决这个问题,该文提出了一种利用依存限制抽取长距离调序规则的新方法。实验表明,该文的方法可以比基准系统高出0.74个BLEU点。
- 涂兆鹏刘群林守勋
- 关键词:统计机器翻译
- 基于n-gram相似度的开发集选择
- 在Och最小错误率训练和对数线性模型的机器翻译框架下,本文提出了一种选择开发集的方法,通过分析开发集句子与测试集在n-gram上的相似度,选出和测试集相似度较高的一部分句子组成新的开发集.相较于原开发集,在此新选出的开发...
- 郑达奇涂兆鹏姜文斌米海涛刘洋刘群
- 关键词:自然语言处理机器翻译相似度
- 文献传递
- 利用依存限制抽取长距离调序规则
- 长距离调序仍然是大多数统计机器翻译系统的一个重要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽取长距离层次规则将会导致规则表数量急剧增加,从而加大...
- 涂兆鹏刘群林守勋
- 关键词:统计机器翻译
- 基于最小语言学资源的资源受限领域命名实体识别
- 在资源匮乏的大规模数据(如互联网纯文本数据)上识别命名实体是一个重要的问题。为解决该问题,我们使用简单的词典资源自动标注数据,然后将命名识别问题转化为基于最大熵马尔可夫模型的序列标注问题。我们使用两种方法搜索结果:1)输...
- 涂兆鹏姜文斌刘群林守勋廖剑吴克文
- 中科院计算所CWMT 2008评测技术报告
- 本文介绍了中国科学院计算技术研究所多语言交互技术实验室参加2008年中国机器翻译研讨会机器翻译评测的情况。我们参加了汉英新闻、英汉新闻和英汉科技的机器翻译评测项目和汉英新闻的系统融合评测项目。在评测中,我们使用了Sile...
- 刘洋米海涛冯洋夏天涂兆鹏吕雅娟刘群
- 关键词:机器翻译
- 文献传递
- 2009中国机器翻译研讨会计算所系统描述
- 本文介绍了中国科学院计算技术研究所自然语言处理实验室参加2009年中国机器翻译研讨会机器翻译评测的情况。今年,我们参加了汉英新闻领域单一系统及系统融合,英汉新闻、英汉科技和汉蒙日常用语五项评测任务,使用了Silenus、...
- 米海涛刘群刘洋冯洋夏天肖欣延熊皓郑达奇涂兆鹏吕雅娟
- 关键词:机器翻译自然语言处理
- 文献传递