您的位置: 专家智库 > >

中国科学院战略性先导科技专项(XDA06030400)

作品数:8 被引量:28H指数:4
相关作者:杨雅婷米成刚李晓周喜王磊更多>>
相关机构:中国科学院新疆理化技术研究所中国科学院大学和田师范专科学校更多>>
发文基金:中国科学院战略性先导科技专项中国科学院西部之光基金中国科学院西部行动计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 8篇自动化与计算...

主题

  • 7篇机器翻译
  • 7篇翻译
  • 4篇维吾尔
  • 4篇维吾尔语
  • 3篇字符
  • 3篇字符串
  • 3篇相似度
  • 2篇登录
  • 2篇未登录词
  • 2篇相似度算法
  • 2篇泛化
  • 1篇单词
  • 1篇短语
  • 1篇形态学
  • 1篇形态语言
  • 1篇译文
  • 1篇有限自动机
  • 1篇语料
  • 1篇语言
  • 1篇语言模型

机构

  • 8篇中国科学院新...
  • 6篇中国科学院大...
  • 1篇中国科学院
  • 1篇中国科学院新...
  • 1篇和田师范专科...

作者

  • 8篇杨雅婷
  • 5篇周喜
  • 5篇李晓
  • 5篇米成刚
  • 3篇王磊
  • 2篇蒋同海
  • 2篇陈科海
  • 1篇张磊
  • 1篇周俊林
  • 1篇李响

传媒

  • 3篇计算机应用研...
  • 2篇网络新媒体技...
  • 1篇计算机应用与...
  • 1篇中文信息学报
  • 1篇计算机工程与...

年份

  • 1篇2016
  • 1篇2015
  • 3篇2014
  • 3篇2013
8 条 记 录,以下是 1-8
排序方式:
维汉机器翻译关键技术研究概述被引量:1
2016年
分析了机器翻译的研究背景和发展现状,主要针对统计机器翻译的原理、特点及方法进行研究对比。结合维吾尔语的复杂语言形态特征,以及和汉语间存在的语言差异,本文提出了面向维吾尔语和汉语之间的机器翻译技术研究框架。并且,详述该研究中的各功能模块,展示其翻译效果。
李晓蒋同海周喜王磊杨雅婷
关键词:机器翻译语言特征维吾尔语翻译模型
基于字符串相似度的维吾尔语中汉语借词识别被引量:6
2013年
维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。
米成刚杨雅婷周喜李晓杨明忠
关键词:借词未登录词字符串相似度
泛化语言模型在汉维机器翻译中的应用被引量:4
2014年
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成nbest译文重新评分,将评分最高的译文作为最佳译文。实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量。
李响南江杨雅婷周喜米成刚
维吾尔语数词类命名实体的识别与翻译被引量:6
2015年
针对维吾尔语数词类命名实体(时间、日期、货币、百分比)在维汉机器翻译中翻译不准确的问题,分析其构成规律及边界信息,设计基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译系统。通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的识别F值达到了91%,有效提高了维汉机器翻译的质量。
张磊杨雅婷米成刚李晓
关键词:平行语料有限自动机
维-汉统计机器翻译中维吾尔语预处理研究被引量:3
2014年
为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。
艾孜孜.吐尔逊杨雅婷吐尔洪.吾司曼周俊林李晓
关键词:维吾尔语单词标点符号
基于粘着性模糊规则的维汉机器翻译最大熵调序研究被引量:2
2013年
针对维汉机器翻译中未登录词和译文乱序问题严重的现象,结合维吾尔语粘着性语言特点以及最大熵分类算法,提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础,在维吾尔语词级别构建粘着性规则约束,从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明,与当前主要MSD(mono、swap、discontinuous)等调序方法相比,该方法较好地体现了维吾尔语的粘着性特点,提高了译文质量。
陈科海周喜杨雅婷米成刚
关键词:形态学粘着性模糊规则最大熵
面向复杂形态语言机器翻译的多模型融合词性标注研究被引量:1
2014年
针对维汉机器翻译中所存在的效率低下以及数据稀疏等问题,本文提出一种多模型融合的词性标注方法。该方法在维吾尔语浅层形态分析的基础上,结合渐进标注模型(Progressive POS,PPOS)对噪音数据的过滤能力及泛化标注模型(Generalize POS,GPOS)的泛化表示能力,对维吾尔语进行词性标注。实验证明,使用该方法进行维吾尔语词性标注,其标注效果已接近实用。
李晓蒋同海周喜王磊杨雅婷
关键词:感知器算法泛化
维汉机器翻译未登录词识别研究被引量:9
2013年
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。
米成刚王磊杨雅婷陈科海
关键词:未登录词
共1页<1>
聚类工具0