张健
- 作品数:2 被引量:67H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- N-gram统计模型在机器翻译系统中的应用被引量:10
- 2002年
- 文章提出了N-gram模型在机器翻译系统中的几个应用。模型是在语料库的基础上统计连续几个词的出现概率,以此来筛选翻译过程中的侯选元素,并可以对译文的语序进行纠正。由于此种方法是建立在语料库的基础之上的,从而具有真实可靠和实时等特点。实验表明,这种方法具有良好的性能,且与被处理的语言无关。
- 张健李素建刘群
- 关键词:机器翻译系统语料库自然语言处理计算机
- 基于向量空间模型的有导词义消歧被引量:57
- 2001年
- 词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。
- 鲁松白硕黄雄张健
- 关键词:词义消歧向量空间模型自然语言理解