国家高技术研究发展计划(2006AA01Z145)
- 作品数:10 被引量:199H指数:6
- 相关作者:刘挺李生秦兵车万翔张宇更多>>
- 相关机构:哈尔滨工业大学西北师范大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 句法与词义相结合的中文代词消解被引量:4
- 2008年
- 句法知识对代词消解有很大的帮助。近年来依存句法由于其利于描述语言中词与词之间的关系、突出核心词的特点日益得到重视。该文提出了一种中文第三人称代词消解方法,直接利用依存句法分析器的结果,构建有效的句法角色特征和名词短语的支配词之间的词义相似和词语相关特征,采用支持向量机作为分类器,在ACE2005语料上的实验证明了这些特征的有效性。
- 宋巍秦兵郎君刘挺
- 关键词:计算机应用中文信息处理代词消解
- 短语结构树库向依存结构树库转化研究被引量:13
- 2008年
- 汉语依存树库的建设相对其他语言如英语,在规模和质量上还有一些差距。树库标注需要付出很大的人力物力,并且保证树库质量也比较困难。该文尝试通过规则和统计相结合的方法,将宾州汉语短语树库PennChinese Treebank转化为哈工大依存树库HIT-IR-CDT的体系结构,从而增大现有依存树库的规模。将转化后的树库加入HIT-IR-CDT,训练和测试依存句法分析器的性能。实验表明,加入少量经转化后的树库后,依存句法分析器的性能有所提高;但加入大量树库后,性能反而下降。经过细致分析,作为一种利用多种树库提高依存句法分析器性能的方法,短语转依存还存在很多需要深入研究的方面。
- 李正华车万翔刘挺
- 关键词:计算机应用中文信息处理依存句法分析
- 基于话题和修辞识别的阅读理解why型问题回答被引量:9
- 2011年
- 针对阅读理解问答中的why型问题,提出基于问题话题和话题间因果修辞关系识别的答案句抽取方法.抽取时利用机器学习方法,选择可识别出对应问题话题的句子特征、问题话题与句子上下文之间因果关系特征,对篇章内的句子按照成为答案句的概率进行排序.对应问题话题的句子识别利用基于idf和语义角色的相似度;因果修辞关系的识别利用线索短语、特定语义角色、从文档集中挖掘的词间蕴含的因果关系概率信息、句子上下文的位置与表达形式.Remedia语料上的实验结果表明,该方法明显提高了why型问题回答的性能.
- 张志昌张宇刘挺李生
- 关键词:答案抽取
- 集成多种背景语义知识的共指消解被引量:7
- 2009年
- 共指消解是信息抽取中一个重要子任务。近年来,许多学者尝试利用统计机器学习的方法来进行共指消解并取得了一定的进展。背景知识作为新的研究热点已经被越来越多地利用在自然语言处理的各个领域。该文集成多种背景语义知识作为基于二元分类的共指消解框架的特征,分别在WordNet、维基百科上提取背景知识,同时利用句子中的浅层语义关系、常见文本模式以及待消解词上下文文本特征。并利用特征选择算法自动选择最优的特征组合,同时对比同样的特征下最大熵模型与支持向量机模型的表现。在ACE数据集上实验结果表明,通过集成各种经过特征选择后的背景语义知识,共指消解的结果有进一步提高。
- 郎君忻舟秦兵刘挺李生
- 关键词:计算机应用中文信息处理共指消解WORDNET维基百科
- 中文事件抽取技术研究被引量:110
- 2008年
- 事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。
- 赵妍妍秦兵车万翔刘挺
- 关键词:计算机应用中文信息处理事件抽取
- 基于语言模型验证的词义消歧语料获取被引量:4
- 2008年
- 作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用。有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这些单义的同义词并不合适,从而带来噪声。为此,笔者使用语言模型过滤这些噪声,达到净化训练数据,提高系统性能的目的。笔者在Senseval-3国际评测中文采样词词义消歧数据集上进行了实验,结果表明经过语言模型过滤的词义消歧系统性能明显高于未经过滤的系统。
- 郭宇航车万翔刘挺
- 关键词:计算机应用中文信息处理词义消歧语言模型噪声过滤
- 中文人称名词短语单复数自动识别被引量:5
- 2008年
- 名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automatic content extraction,ACE)语料上抽取得到人称名词短语的单复数信息,分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别,基于规则的方法,在一些知识资源的基础上定义了规则模板库,每条规则采用槽和槽值的方法米进行体现;机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征.两种方法分别达到了48.24%和87.48%的正确率.实验结果显示,基于规则的方法能够保证精确率而不能保证召回率,机器学习的方法可以更好地完成单复数信息的识别任务.
- 郎君秦兵刘挺李正华李生
- 关键词:单复数
- 基于浅层语义树核的阅读理解答案句抽取被引量:17
- 2008年
- 阅读理解系统是通过对一篇自然语言文本的分析理解,对用户根据该文本所提的问题,自动抽取或者生成答案。本文提出一种利用浅层语义信息的英文阅读理解抽取方法,首先将问题和所有候选句的语义角色标注结果表示成树状结构,用树核(tree kernel)的方法计算问题和每个候选句之间的语义结构相似度,将该相似度值和词袋方法获得的词匹配数融合在一起,选择具有最高分值的候选句作为最终的答案句。在Remedia测试语料上,本文方法取得43.3%的HumSent准确率。
- 张志昌张宇刘挺李生
- 关键词:计算机应用中文信息处理树核
- 基于启发式错误驱动学习的中文时间表达式识别被引量:5
- 2008年
- 提出了一种基于启发式错误驱动学习的中文时间表达式识别的新方法。该方法先采用依存分析方法以时间触发词为切入点递归地识别时间表达式,有效地解决了长距离依赖的问题,大大提高了识别效果;在此基础上,对比错误识别结果和人工标注,采用启发式A*算法搜索策略进行错误驱动学习,降低了规则学习的复杂度,并具有区分每条规则的有效性和规则间相容性的优点,使系统性能提高近6%。最终在封闭测试集和开放测试集上,F值分别达到了77.96%和77.92%。
- 贺瑞芳秦兵潘越群刘挺李生
- 关键词:依存分析
- 基于语言模型验证的词义消歧语料获取
- 作为一种稀缺资源,人工标注语料的匮乏限制了有指导词义消歧系统的大规模应用.有人提出了利用目标词的单义同义词在生语料中自动获取词义消歧语料的方法,然而,在某些上下文当中,用目标词替换这些单义的同义词并不合适,从而带来噪声....
- 郭宇航车万翔刘挺
- 关键词:词义消歧噪声语言模型
- 文献传递