您的位置: 专家智库 > >

王志洋

作品数:12 被引量:30H指数:3
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金国家电子信息产业发展基金国家社会科学基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 7篇会议论文
  • 3篇期刊文章
  • 1篇专利
  • 1篇科技成果

领域

  • 8篇自动化与计算...
  • 3篇语言文字

主题

  • 7篇翻译
  • 5篇机器翻译
  • 3篇切分
  • 3篇词法分析
  • 3篇词语
  • 3篇词语切分
  • 2篇多粒度
  • 2篇形态分析
  • 2篇最大熵
  • 2篇维吾尔
  • 2篇维吾尔语
  • 2篇俄语
  • 1篇对齐
  • 1篇有向图
  • 1篇有向图模型
  • 1篇语言
  • 1篇语言学
  • 1篇少数民族语言
  • 1篇数据处理
  • 1篇投票

机构

  • 12篇中国科学院
  • 2篇新疆大学
  • 2篇中国科学院研...

作者

  • 12篇王志洋
  • 10篇吕雅娟
  • 9篇刘群
  • 6篇姜文斌
  • 2篇刘洋
  • 2篇吐尔根·依布...
  • 2篇麦热哈巴·艾...
  • 2篇刘凯
  • 2篇李佳正
  • 2篇孙萌
  • 2篇孟凡东
  • 2篇黄云
  • 1篇苏劲松
  • 1篇蔡舒
  • 1篇冯洋
  • 1篇曹杰

传媒

  • 1篇小型微型计算...
  • 1篇软件学报
  • 1篇中文信息学报
  • 1篇第五届全国机...
  • 1篇第十三届中国...

年份

  • 1篇2014
  • 3篇2012
  • 6篇2011
  • 2篇2009
12 条 记 录,以下是 1-10
排序方式:
基于小规模俄汉双语词典的俄语形态切分
俄语是一种形态丰富的语言,其形态切分相关语料较为缺乏或带有噪声,这些都为俄语的形态切分研究带来困难。我们将此问题建模为经典的序列标注模型,首先自动切分小规模俄汉双语词典提取出形素字典作为训练数据,然后针对这种语言特点训练...
黄云姜文斌王志洋祝捷吕雅娟刘群
关键词:俄语词语切分词法分析最大熵
文献传递
面向科技文献的机器翻译关键技术研究
吕雅娟米海涛姜文斌冯洋苏劲松蔡舒王志洋曹杰
科技文献自动翻译具有重要的研究意义和实用价值。该项目以统计机器翻译技术为基础,研究了适合科技文献翻译的机器翻译关键技术和方法。主要研究内容包括三个方面:句子骨干翻译模板的自动获取;传统语言学知识和统计机器翻译模型的融合策...
关键词:
关键词:机器翻译语言学自适应方法
一种提高维吾尔语-汉语词语对齐的方法研究被引量:9
2012年
维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高.
麦热哈巴·艾力王志洋吐尔根·依布拉音
关键词:词对齐维吾尔语形态分析
面向形态丰富语言的多粒度翻译融合
形态丰富语言由于其复杂的形态变化,会导致大词汇量和数据稀疏问题,这给统计机器翻译带来了巨大挑战。该文通过将这类语言表示为不同的粒度,然后分别进行翻译;由于不同的拉度能表征语言不同层面的特点,通过对不同粒度的翻译结果进行词...
王志洋吕雅娟刘群
关键词:粒度分析机器翻译
文献传递
2011全国机器翻译研讨会计算所系统描述
本文介绍了中国科学院计算技术研究所自然语言处理研究组参加2011年全国机器翻译研讨会机器翻译评测的情况。今年我们参加了所有领域的九项评测任务。使用了基于语言学句法、基于形式句法、基于短语等三类统计翻译模型的单系统。以及基...
刘凯吕雅娟刘群王志洋于惠孙萌宋林峰李佳正何晋一孟凡东刘洋
关键词:机器翻译系统数据处理
维吾尔语词法分析的有向图模型被引量:22
2012年
维吾尔语是典型的黏着性语言,其派生能力很强,具有丰富的形态变化,同时遵循语音和谐规律,生成过程中会出现弱化、增音、脱落等音变现象.这些特性决定了维吾尔语词法分析的难点,包括词干提取、发生音变字母的还原以及标注.将维吾尔语词的层次结构引入到词法分析研究中,提出了维吾尔语词法分析的有向图模型,该模型将维吾尔语词法分析描述为有向图结构,图中节点表示词干、词缀及其相应标注,其边表示节点之间的转移或生成概率并将此概率作为候选择优的依据.针对维吾尔语在形态变化过程中发生的音变现象,又提出基于词内字母对齐算法的自动还原模型,该模型将音变现象泛化到每个字母上的假设之下,将还原问题转变成类似于词性标注问题,再利用统计方法进行还原.在对新疆多语种信息技术重点实验室手工标注的《维吾尔语百万词词法分析语料库》上进行的实验中,取得了词干提取正确率为94.7%,词干与各词缀切分并标注的F值达到92.6%的好成绩.
麦热哈巴·艾力姜文斌王志洋吐尔根·依布拉音刘群
关键词:维吾尔语词法分析词语切分词性标注有向图
2011全国机器翻译研讨会计算所系统描述
本文介绍了中国科学院计算技术研究所自然语言处理研究组参加2011年全国机器翻译研讨会机器翻译评测的情况。今年我们参加了所有领域的九项评测任务。使用了基于语言学句法.基于形式句法、基于短语等三类统计翻译模型的单系统,以及基...
刘凯王志洋于惠孙萌宋林峰李佳正何晋一孟凡东刘洋吕雅娟刘群
关键词:机器翻译
文献传递
基于马尔可夫间隔标注的中文分词算法
典型的判别式方法通过标注每个字符在词中的相对位置,将分词看作字符标注问题。本文提出了一个形式化的标注策略——马尔可夫间隔标注,来对汉语进行分词。在每一步中,N阶马尔可夫间隔标注对连续的N+1个字符间隔进行标注,并按照马尔...
姜文斌王志洋刘群吕雅娟
关键词:中文分词
文献传递
面向形态丰富语言的多粒度翻译融合被引量:3
2011年
形态丰富语言由于其复杂的形态变化,会导致大词汇量和数据稀疏问题,这给统计机器翻译带来了巨大挑战。该文通过将这类语言表示为不同的粒度,然后分别进行翻译;由于不同的粒度能表征语言不同层面的特点,通过对不同粒度的翻译结果进行词级系统融合,便可生成更好的译文。维吾尔语、蒙古语到汉语的两组翻译实验表明,这种多粒度系统融合方法改善了翻译效果,BLEU值比最好的单系统分别提高了+1.41%和+2.03%。
王志洋吕雅娟刘群
关键词:多粒度
基于投票平均的最小错误率训练算法
最小错误率训练是统计机器翻译中标准的调参方法,但由于搜索过程中的贪婪特性,往往会导致结果不稳定或陷入局部最优.本文提出投票平均方法来增强标准调参方法——通过翻译验证集,对训练过程的中间结果进行投票平均,从而获得更稳定和准...
王志洋姜文斌吕雅娟刘群
关键词:机器翻译汉英翻译
文献传递
共2页<12>
聚类工具0