刘里 作品数:7 被引量:70 H指数:5 供职机构: 北京理工大学计算机学院 更多>> 发文基金: 国家自然科学基金 山东省优秀中青年科学家科研奖励基金 更多>> 相关领域: 自动化与计算机技术 更多>>
中文文本分类中特征描述及分类器构造方法研究 随着信息时代的到来和Internet的日益普及,电子文本迅速膨胀,如何在海量的文本中提取潜在的、有价值的知识和模型成为信息处理的一大目标。其中,文本分类作为信息处理的一个重要环节,已经成为信息技术领域的一个主要研究方向。... 刘里关键词:中文文本分类 分类器 文献传递 自动问答系统研究综述 被引量:30 2007年 自动问答系统是自然语言处理领域中一个非常热门的研究方向,它综合运用了多种自然语言处理技术。本文综述了国内外自动问答技术的发展现状,对系统三个主要组成部分:问题分析、信息检索和答案抽取进行了深入的分析,通过比较,得出了自动问答系统运用各类技术之间的优势与不足。在此基础上,提出了自动问答系统的发展方向。 刘里 曾庆田关键词:自动问答系统 信息检索 答案抽取 面向领域的半结构化Web信息抽取技术 为了应对信息爆炸带来的挑战,人们迫切需要一些自动化的工具在海量信息源中迅速定位到真正需要的信息。在这样的情况下,信息抽取技术应运而生。目前大部分的Web信息抽取方法都是针对某一个特定的网站的网页人工进行包装器的编写,不能... 刘里关键词:WEB信息抽取 包装器 半结构化文本 文献传递 融合事件信息的复杂问句分析方法 被引量:7 2011年 问答系统中的复杂问句通常涉及很多事件信息,正确处理其中的事件内容对提高系统准确率有重要的影响.为此,文中提出了一种融合事件信息的复杂问句分析方法.该方法将事件视为由多个要素构成的复杂数据对象,从而定义了事件的语义表征模型,给出了相似度计算方法.文中首先利用相关的事件抽取方法获取复杂问句中的事件信息,生成事件的语义模型实例.然后利用事件语义模型实例构成的矢量表征复杂问题的完整语义信息,从而根据表征矢量计算复杂问句的相似度.实验表明,事件语义信息对问句分析是有益的,融合事件信息的复杂问句分析方法有助于提高问答系统的整体性能,准确率高达78.6%. 刘小明 樊孝忠 刘里关键词:自然语言处理 问答系统 问句分析 基于分隔符和上下文术语的领域现象术语抽取 被引量:6 2011年 领域现象术语常常是复合型短语,很难根据局部上下文特征用传统的机器学习方法来抽取.为此,文中提出了一种领域现象术语的抽取方法.该方法首先用基于上下文的方法抽取得到分隔符集,然后结合分隔符集和上下文术语用改进的NC-value算法进行候选领域现象术语抽取,最后在候选领域现象术语中过滤掉名词性术语,进而得到最终结果.实验表明,文中方法对领域现象术语的抽取效果优于基于词频的方法和基于分隔符的方法. 刘里 刘小明关键词:术语抽取 分隔符 复合词 基于关键词语的文本特征选择及权重计算方案 被引量:18 2006年 文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。 刘里 何中市关键词:文本分类 向量空间模型 特征提取 支持向量机 基于上下文关系的文本分类特征描述方法 被引量:7 2007年 文本特征描述是文本分类的基础,其目标是用一定的可计算的特征来表示文本,在分类的时候用这些特征来区分文本。在向量空间模型(Vector Space Model,简记为VSM)中采用“词袋”法来处理文本,即文本被看成是由相互无关的词语构成的集合,不考虑词语之间的关系,但是这种处理方法不是很合理,因为文本的结构是完整的,孤立地对待单个词语将丢失文本的内容信息。在实际语言环境中,词语有一定的上下文“作用域”,“作用域”中的词语对表达同一主题具有一定的共性。本文提出了一种基于上下文关系的文本特征描述方法,包括特征选择方法CBFS及权重计算方法CBFW。该方法是在提取一个初始特征词语集合的基础上,通过用互信息(MI)来衡量词语在上下文中的依赖度,选取对主题贡献大的词语加入特征集合,同时调整不同贡献的特征词语的权重,从而更加合理地表示文本。 何中市 刘里关键词:文本分类 向量空间模型