国家自然科学基金(60373101) 作品数:10 被引量:32 H指数:3 相关作者: 赵铁军 韩习武 齐浩亮 杨沐昀 冯丽辉 更多>> 相关机构: 哈尔滨工业大学 昆明理工大学 黑龙江大学 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
基于决策树的汉语基本名词短语识别 被引量:4 2004年 提出了一种基于汉语树库,采用决策树的方法识别汉语基本名词短语。其核心思想为:从语料库中自动抽取基本名词短语的词性模板以及其相应的上下文信息,采用ID3算法形成相应的决策树。该方法有效地引入了学习机制,提高了系统的性能和识别速度,具有较好的精确率和召回率。 孟迎 冯丽辉 赵铁军关键词:决策树 语料库 汉语空间关系中射体识别问题的研究与分析 本文利用了在汉语的空间关系表达中射体的概念,结合语料和统计数据详细分析了射体的语法、语义、结构特点以及特殊用法。在此基础上提出了基于Winnow算法的射体识别策略,并结合射体的语言特点,给出了一套较为完整的特征方案。实验... 赵纪元 李晗静 赵铁军文献传递 基于弱指导SVM的汉语动词次范畴化自动获取 被引量:3 2006年 动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有涉及到有指导的训练过程,因此所有这些方法都是无指导的。文章提出一种弱指导的汉语动词次范畴化自动获取方案,并应用SVM分类器取代原系统中的无指导假设生成模块。实验结果表明,最终获取性能有了统计意义上的改善。 韩习武 赵铁军关键词:汉语动词 次范畴化 SVM 面向特定领域的汉语句法主干分析 被引量:14 2004年 本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % 。 齐浩亮 杨沐昀 孟遥 韩习武 赵铁军关键词:人工智能 自然语言处理 浅层句法分析 基于内聚度的多文档文摘句子排序 多文档文摘的句子排序问题受到的关注一直较少,然而文摘句的顺序对用户正确理解原文意思却起到重要的作用,因此有必要对多文档文摘的句子排序进行研究。本文针对中文新闻摘要系统,给出了一种基于内聚度的自底向上的中文多文档文摘的句子... 姚超 李生 张姝 郑德权关键词:多文档文摘 内聚度 文献传递 非精确概念的机器学习与应用 被引量:1 2006年 提出并描述非精确概念的机器学习问题,定义非精确概念学习的一般任务模式,给出符合人类学习习惯的解决方案.结合具体例子说明非精确概念的学习与应用的过程,总结非精确概念学习同时具有归纳学习和统计学习的、优势及很强的鲁棒性,其缺点是计算量大,需要维扩一个很大的目标函数假设集合及没能充分考虑领域知识.并指出本文学习方法的可能应用领域. 韩习武 赵铁军基于TBL的中文名实体识别后处理技术 中文名实体识别是自然语言处理当中一个富有难度和挑战性的课题。本文提出了一种改进的基于TBL 的后处理技术,它对学习到的规则集合进行优化,极大地提高了单个分类器的识别效果。并且该方法可以自动获取专门领域的语言特征知识。同时... 刘利刚 谭红叶 赵铁军 杨沐昀关键词:TBL 后处理 文献传递 从真实语料中自动获取汉语动词次范畴化信息 被引量:3 2005年 描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的初步评价表明,该技术已经达到了目前国际上同类研究相应水平的精确率和召回率;并且,所得知识库在一个PCFG句法分析器上的简单应用体现了次范畴化信息在自然语言处理领域有着可观的潜在价值。 韩习武 赵铁军关键词:汉语动词 谓词 次范畴化 基于链接分析的重要Blog信息源发现 本文提出了一种基于链接分析的对 Blog 信息源进行量化评估的方法,在此基础之上发现重要 Blog 信息源,既体现了 Blog 信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可... 杨宇航 赵铁军 郑德权 于浩关键词:链接分析 评价指标 文献传递 Chinese Information Processing and Its Prospects 被引量:1 2006年 The paper presents some main progresses and achievements in Chinese information processing. It focuses on six aspects, i.e., Chinese syntactic analysis, Chinese semantic analysis, machine translation, information retrieval, information extraction, and speech recognition and synthesis. The important techniques and possible key problems of the respective branch in the near future are discussed as well. 李生 赵铁军