冯洋
- 作品数:16 被引量:71H指数:4
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 面向科技文献的机器翻译关键技术研究
- 吕雅娟米海涛姜文斌冯洋苏劲松蔡舒王志洋曹杰
- 科技文献自动翻译具有重要的研究意义和实用价值。该项目以统计机器翻译技术为基础,研究了适合科技文献翻译的机器翻译关键技术和方法。主要研究内容包括三个方面:句子骨干翻译模板的自动获取;传统语言学知识和统计机器翻译模型的融合策...
- 关键词:
- 关键词:机器翻译语言学自适应方法
- 基于联合注意力机制的篇章级机器翻译被引量:6
- 2019年
- 近年来,神经机器翻译(neural machine translation,NMT)表现出极大的优越性,然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算,而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中,采用传统的注意力机制建模篇章信息存在着信息冗余的问题。该文提出了一种联合注意力机制,结合"硬关注"和"软关注"的机制对篇章上下文的信息进行建模。关键思想是通过"硬关注"筛选出与翻译当前句子相关的源端历史词语,然后采用"软关注"的方法进一步抽取翻译中所需的上下文信息。实验表明,相比于基线系统,该方法能使翻译性能获得明显提升。
- 李京谕冯洋
- 统计机器解码特征权重的训练方法和解码方法
- 本发明提供一种统计机器解码方法,包括下列步骤:1)对于测试集的每个源语言句子,由单解码器生成测试集句子的翻译超图;2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图;3)在所述测试集句子的共享压缩翻译超图上...
- 刘洋米海涛冯洋刘群
- 基于语种关联度课程学习的多语言神经机器翻译被引量:1
- 2022年
- 近年来,使用单一模型实现多语言神经机器翻译的方法受到了广泛关注。然而,现有方法多将所有语种语料直接混合作为训练语料,未能利用多种语言之间关联和相似的信息。此外,模型训练涉及语言种类多、数据量大、整体训练难度大、耗时长等问题。针对以上两个问题,文中提出了一种基于语种关联度的课程学习方法来提高多语言神经机器翻译的整体性能和收敛速度。具体来说,提出了两种度量语种关联度的指标:使用奇异向量典型相关分析对不同语言进行排序以及使用余弦相似度对特定语言中的不同句子进行排序。进一步,文中提出以验证集损失为课程替换标准的课程学习策略,使模型训练由整体训练转化为一系列课程上的训练,降低了训练难度。该方法填补了课程学习策略在多语言神经机器翻译领域的空白。文中在平衡和非平衡的IWSLT多语言数据集和Europarl语料库数据集上进行了实验,结果表明,所提方法优于多语言基线翻译系统,最多可使训练时间缩短64%。
- 于东谢婉莹谷舒豪冯洋
- 关键词:机器翻译多语言课程学习
- 基于简单循环单元的深层神经网络机器翻译模型被引量:16
- 2018年
- 基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit,GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit,SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。
- 张文冯洋刘群
- 基于数据增强及领域适应的神经机器翻译技术被引量:4
- 2019年
- 近年来,基于深度学习的神经机器翻译已经成为机器翻译的主流方法.神经机器翻译模型比统计机器翻译模型更依赖于大规模的标注数据.因此,当训练语料稀缺或语料领域不一致时,翻译质量会显著下降.在藏汉翻译中,训练语料大多为政府文献领域且数据稀缺;在汉英语音翻译中,训练语料大多为书面语领域且噪音语料稀缺.为了提高神经机器翻译模型在这2个任务上的表现,该文提出了一种噪音数据增强方法和2种通用的领域自适应方法,并验证了其有效性.
- 谷舒豪单勇谢婉莹郭登级王树根邵晨泽薛海洋张良冯洋
- 层次短语翻译模型的介词短语调序被引量:3
- 2012年
- 在不同的语言中,句法成分的相对位置往往不同,介词短语表现尤为明显,因此正确的对介词短语进行调序对提高翻译质量至关重要。层次短语模型借助于形式语法规则,具有较强的处理长距离调序的能力,但是其并不对短语的句法成分进行区分,这会导致规则的使用不当,从而引起翻译错误。该文在层次短语模型的基础上,针对介词短语进行处理。首先利用条件随机场模型识别出介词短语,然后抽取出带有介词短语的规则,构建一个新的同步上下文无关文法。解码的时候,在这个同步上下文无关文法定义的空间里搜索找到最优的译文。相对于层次短语模型,该方法在我们内部的英汉数据集上调高了0.8个BLEU百分点,在NIST 2008英汉翻译数据集上提高了0.5个BLEU百分点。
- 冯洋张冬冬刘群
- 关键词:统计机器翻译条件随机场
- 利用条件变分自动编码器进行标签平滑的翻译方法及系统
- 本发明提出一种利用条件变分自动编码器进行标签平滑的翻译方法和系统,包括:将翻译训练文本输入具有条件变分自动编码器的神经网络翻译模型,经过该神经网络翻译模型的编解码器,得到解码器的输出向量,将该输出向量输入该条件变分自动编...
- 冯洋郭登级黄浪林
- 机器翻译进展综述
- 自然语言处理的重要研究领域,研究如何利用计算机把一种语言(源语言,sourcelanguage)翻译成另一种语言(目标语言,target language),主流模型:带有注意力机制的编码器-解码器结构,强化学习+对抗学...
- 冯洋
- 关键词:自然语言处理机器翻译
- 基于增量训练的维汉神经机器翻译系统被引量:7
- 2019年
- 目前,基于深度学习的神经机器翻译已经成为机器翻译领域的主流方法.神经机器翻译模型相较于统计机器翻译模型具有更庞大的参数规模,因此其翻译质量取决于训练数据是否充足.由于与维吾尔语相关的平行语料资源严重匮乏,神经机器翻译模型在维汉翻译任务上表现不佳,为此提出了一种利用伪语料对神经机器翻译模型进行增量训练的方法,可有效提升神经机器翻译在维汉翻译任务上的质量.
- 杨郑鑫李京谕胡镓伟冯洋
- 关键词:自然语言处理维吾尔语