您的位置: 专家智库 > >

刘洋

作品数:7 被引量:47H指数:4
供职机构:清华大学计算机科学与技术系更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家科技支撑计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 1篇会议论文

领域

  • 6篇自动化与计算...

主题

  • 3篇维吾尔
  • 3篇维吾尔语
  • 2篇递归
  • 2篇语料
  • 2篇语料库
  • 2篇神经网
  • 2篇神经网络
  • 2篇翻译
  • 2篇HTML
  • 1篇对齐
  • 1篇性能对比
  • 1篇搜索
  • 1篇搜索算法
  • 1篇平行语料
  • 1篇平行语料库
  • 1篇资源匮乏
  • 1篇匮乏
  • 1篇网页
  • 1篇网页获取
  • 1篇门限

机构

  • 7篇清华大学

作者

  • 7篇孙茂松
  • 7篇刘洋
  • 2篇哈里旦木·阿...
  • 1篇沈世奇
  • 1篇刘奇
  • 1篇程勇
  • 1篇阿布都克力木...

传媒

  • 3篇清华大学学报...
  • 3篇中文信息学报

年份

  • 1篇2018
  • 2篇2017
  • 1篇2014
  • 2篇2013
  • 1篇2012
7 条 记 录,以下是 1-7
排序方式:
基于双向门限递归单元神经网络的维吾尔语形态切分被引量:14
2017年
以维吾尔语为代表的低资源、形态丰富语言的信息处理对于满足"一带一路"语言互通的战略需求具有重要意义。这类语言通过组合语素来表示句法和语义关系,因而给语言处理带来严重的数据稀疏问题。该文提出基于双向门限递归单元神经网络的维吾尔语形态切分方法,将维吾尔词自动切分为语素序列,从而缓解数据稀疏问题。双向门限递归单元神经网络能够充分利用双向上下文信息进行切分消歧,并通过门限递归单元有效处理长距离依赖。实验结果表明,该方法相比主流统计方法和单向门限递归单元神经网络获得了显著的性能提升。该方法具有良好的语言无关性,能够用于处理更多的形态丰富语言。
哈里旦木·阿布都克里木程勇刘洋孙茂松
关键词:神经网络维吾尔语
神经机器翻译系统在维吾尔语-汉语翻译中的性能对比被引量:24
2017年
基于深度学习的神经机器翻译已在多个语言对上显著超过传统的统计机器翻译,成为当前的主流机器翻译技术。该文从词粒度层面出发,对国际上具有影响力的6种神经机器翻译方法在维吾尔语-汉语翻译任务上进行了深入分析和比较,这6种方法分别是基于注意力机制(GroundHog),词表扩大(LV-groundhog),源语言和目标语言采用子词(subword-nmt)、字符与词混合(nmt.hybrid)、子词与字符(dl4mt-cdec)以及完全字符(dl4mt-c2c)方法。实验结果表明:源语言采用子词、目标语言采用字符的方法(dl4mtcdec)在维吾尔语-汉语神经机器翻译任务上性能最佳。该文不仅是首次将神经机器翻译方法应用到维吾尔语-汉语机器翻译任务上,也是首次将不同的神经机器翻译方法在同一语料库上进行了对比分析。该研究对维吾尔语-汉语机器翻译任务和神经机器翻译的进一步研究工作都具有重要的参考意义。
哈里旦木.阿布都克里木刘洋孙茂松
关键词:维吾尔语
URL模式与HTML结构相结合的平行网页获取方法被引量:6
2013年
平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取。在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点)。
刘奇刘洋孙茂松
关键词:平行语料库
THUUyMorph:维吾尔语形态切分语料库被引量:4
2018年
THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。
哈里旦木·阿布都克里木孙茂松刘洋阿布都克力木·阿布力孜
关键词:维吾尔语
基于对偶分解的词语对齐搜索算法被引量:2
2013年
词语对齐旨在计算平行文本中词语之间的对应关系,对机器翻译、双语词典构造等多项自然语言处理任务都具有重要的影响。虽然近年来词语对齐在建模和训练算法方面取得了显著的进展,但搜索算法往往都采用简单的贪心策略,面临着搜索错误较大的问题。该文提出了一种基于对偶分解的词语对齐搜索算法,将复杂问题分解为两个相对简单的子问题,迭代求解直至收敛于最优解。由于对偶分解能够保证求解的收敛性和最优性,该文提出的搜索算法在2005年度863计划词语对齐评测数据集上显著超过GIZA++和判别式词语对齐系统,对齐错误率分别降低4.2%和1.1%。
沈世奇刘洋孙茂松
关键词:词语对齐搜索算法
层次短语翻译的神经网络调序模型被引量:2
2014年
调序歧义是层次短语翻译模型面临的主要挑战之一,但在该类模型中使用的上下文信息非常有限,制约了该类模型处理调序歧义的能力。为了更充分地利用上下文信息,提出了一种面向层次短语翻译模型的神经网络调序模型。该模型将调序看作分类问题,首先使用递归自动编码器为任意长度的字符串计算向量表示,然后使用这些向量表示作为分类特征,用于预测不同调序方式的概率,最后将这些概率作为新的特征加入翻译模型中进行翻译。实验结果显示:在中—英翻译任务上,该模型相比基线系统获得了0.3~0.8的BLEU值提升,具有更好的调序能力。
李鹏刘洋孙茂松
关键词:计算机科学与技术神经网络
URL模式与HTML结构相结合的平行网页获取方法
语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源。虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战。本...
刘奇刘洋孙茂松
共1页<1>
聚类工具0