赵铁军
- 作品数:388 被引量:1,083H指数:16
- 供职机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国际科技合作与交流专项项目更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- CEMT—Ⅲ系统中汉语兼类问题的处理被引量:3
- 1993年
- 汉语中词的兼类是一个普遍存在的现象。任何工程化的汉语句法分析系统都不能回避这个重要而难以解决的歧义问题。本文根据汉英机器翻译系统CEMT—Ⅲ的有2万词条的机器词典进行了统计,其中兼类词占7.7%,刪CEMT—Ⅲ系统采用多级渐进处理策略,将确定性推理和非确定性推理相结合,实现了汉语词的兼类自动消除机制。
- 赵铁军毛成江张民李生
- 关键词:机器翻译汉语英语
- 基于上下文的查询扩展被引量:34
- 2010年
- 针对信息检索查询所使用的词可能与文档集中使用的词不匹配从而影响检索效果这一信息检索关键问题,提出了一种基于上下文的查询扩展方法,该方法根据查询的上下文信息对扩展词进行选择,同时考虑到扩展词与整个查询句以及与查询词的位置关系.在TREC信息检索测试集上进行的实验表明,相对于通常简单的语言模型,方法取得了5%~19%的提高.与流行的基于伪反馈的查询扩展方法相比,提出的方法也具有相当的平均准确率.
- 李卫疆赵铁军王宪刚
- 关键词:信息检索查询扩展上下文语言模型
- 基于词典和统计的语料库词汇级对齐算法被引量:13
- 1997年
- 语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。
- 刘小虎吴葳李生赵铁军蔡萌鞠英杰
- 关键词:语料库信息处理
- 一种基于深度学习面向公检法领域的相关事件识别方法
- 本发明公开一种基于深度学习面向公检法领域的相关事件识别方法。步骤1:采集网络上各种热点信息标题,进行非中文、非英文、非数字字符的清理并存储在数据库中;步骤2:对步骤1数据库中的热点信息标题采用文本分类技术及深度学习进行识...
- 赵铁军徐冰杨沐昀郭常江朱聪慧曹海龙
- 无监督神经机器翻译综述被引量:1
- 2021年
- 神经机器翻译模型的学习往往依赖于大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出了无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文从模型主要机制、训练过程出发来分析无监督神经机器翻译,并介绍无监督神经机器翻译现阶段的发展以及存在的挑战。
- 孙海鹏赵铁军
- 一种面向多语言大模型的词语表示学习方法
- 本发明提出一种面向多语言大模型的词语表示学习方法。所述方法在表示能力上能够显著高于主流的静态和动态词向量模型。本发明突破性地将单语词的向量表示改进为多点的流形表示。这种新的框架有望增加词向量空间的整体容量,更好地应对一词...
- 曹海龙杨沐昀朱聪慧赵铁军徐冰傅畅
- 基于多任务学习的篇章级文本连贯性分类方法
- 本发明提出基于多任务学习的篇章级文本连贯性分类方法,所述方法包括:步骤1、使用预训练模型得到篇章级文本中每一句话的句子向量表示;步骤2、将句子向量作为输入,使用Transformer模型,得到篇章级文本的整体向量表示;步...
- 赵铁军夏名宏朱聪慧徐冰杨沐昀曹海龙
- 文献传递
- 一种面向法律文本的多关系中主要关系的抽取方法
- 本发明公开了一种面向法律文本的多关系中主要关系的抽取方法。步骤1:根据选定的法律条文文本进行实体及实体间关系的定义;步骤2:根据步骤1的法律实体定义和关系定义,确定对法律原文的序列标注方式;步骤3:根据步骤2对法律原文的...
- 赵铁军杨沐昀徐冰徐家豫朱聪慧曹海龙
- 文献传递
- 基于动态机制的主题事件中的时间识别和规范化
- 2015年
- 事件中与主题相关的时间信息体现了事件在时间维度的特征。而当前面向事件的时间识别大多是基于句子或短语的,并采用静态时间值机制。本文提出了一个面向主题事件的时间识别模型。该模型采用参考时间动态选择机制对时间表达式进行规范化,然后利用设置了优先级的关键词,将基于句子或短语的时间识别转化为基于篇章的时间识别,从而识别主题事件中的时间。改善了纯粹基于关键词或静态参考时间机制的主题事件中的时间识别的性能。
- 李风环郑德权赵铁军
- 大规模双语句对自动获取技术
- 2012年
- 从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译。从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法。首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用Gale-Church算法进行句对齐,得到平行句对;最后统一进行后处理。实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%。
- 王澍郑德权赵铁军