赵爽
- 作品数:10 被引量:52H指数:4
- 供职机构:河北理工大学经济管理学院更多>>
- 发文基金:国家自然科学基金河北省科技厅指导计划项目更多>>
- 相关领域:自动化与计算机技术理学文化科学更多>>
- 文本特征加权方法TF·IDF的分析与改进被引量:14
- 2008年
- TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。
- 林永民吕震宇赵爽朱卫东
- 关键词:文本分类特征加权向量空间模型
- 计算机免疫中基于移动代理的规则提取与规则库构造
- 2006年
- 计算机免疫系统是防护计算机安全的新兴技术,类MC Agent是计算机免疫系统模型GECISM中的一个代理,是模仿生物免疫系统区分计算机系统中“自我”和“非我”的主要部分.重点介绍了类MC A-gent的设计与实现,包括系统调用短序列的采集、规则的提取以及规则库的构造.
- 吴梅梅王凤先李仁玲赵爽谢博均金
- 关键词:计算机免疫系统移动代理MCAGENT
- 结构化文档检索模型的改进研究
- 2010年
- 针对已有的基于贝叶斯网络的结构化文档检索模型存在的偏好小结构单元的问题,提出了一种改进的检索模型推理算法,算法考虑了结构单元对查询术语的覆盖程度,避免了在推理过程中只使用相关概率排序带来的问题。实验表明检索模型应用该推理算法能有效提高结构化文档的检索性能。
- 赵爽吕震宇林永民
- 关键词:结构化文档贝叶斯网络信息检索
- 向量空间模型中特征加权的研究被引量:8
- 2008年
- 随着网络技术的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。常采用向量空间模型来表示文本,将文本看作特征空间的一个向量,使用TF.IDF方法对特征加权。但是这种加权方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好地反映单词的有用程度,从而导致分类准确率下降。针对TF.IDF方法存在的问题,提出了一种基于特征基尼指数的特征加权方法TF.GINI。实验结果显示,这种加权方法具有很好的分类性能。
- 林永民吕震宇赵爽朱卫东
- 关键词:文本分类基尼指数特征加权向量空间模型
- 基于贝叶斯网络的结构化文档检索模型被引量:2
- 2007年
- 研究表明合理考虑术语之间的关系可以提高检索系统的性能。采用共现分析的方法从文档集合中学习得到术语之间的关系,并应用到结构化文档检索中,提出了一个基于贝叶斯网络的结构化文档检索模型,给出了其拓扑结构、概率估计以及推理过程。实验表明该模型的检索性能要优于没有考虑术语之间关系的模型。
- 赵爽徐建民
- 关键词:贝叶斯网络结构化文档共现分析
- 基于类信息的文本特征选择与加权算法研究被引量:8
- 2008年
- 文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。
- 吕震宇林永民赵爽陈景年朱卫东
- 关键词:文本分类特征加权基尼指数
- 基于同义词词林的文本特征选择与加权研究被引量:12
- 2008年
- 特征选择与加权是文本分类的关键问题之一,而噪音与数据稀疏则是特征选择过程中遇到的主要障碍。介绍了一种基于同义词词林的统计与语义相结合的文本特征选择与加权方法。该方法首先对同义词进行合并,将原有的特征提取从词的层面上升到主题概念层面,然后采用词频与相对熵的剩余度的组合TF*Ensu对特征进行加权,强化对分类贡献大的主题特征。实验结果表明,这种方法较之传统方法在特征选择与加权的效果上有明显改善,并能提高文本分类的精度。
- 吕震宇林永民赵爽朱卫东
- 关键词:文本分类特征加权同义词词林
- kNN在文本分类中的应用研究被引量:4
- 2008年
- 随着网络技术与数字图书馆的迅猛发展,在线文档迅速增加,自动文本分类已成为处理和组织大量文档数据的关键技术。kNN方法作为一种简单、有效、非参数的分类方法,在文本分类中得到广泛的应用。本文介绍了kNN分类算法的思想以及两种不同的决策规则,并通过实现的文本分类系统对基于离散值规则的kNN方法和基于相似度加权的kNN方法进行实验比较。实验结果表明,基于相似度加权的kNN方法的分类性能要优于基于离散值规则的kNN方法。
- 吕震宇赵爽林永民
- 关键词:文本分类KNN
- 基于样本分布与熵的数值型属性离散化被引量:4
- 2008年
- 连续属性的离散化是数据预处理的重要工作。论文分析了基于熵的离散化方法的不足,从估计训练样本的概率分布的角度出发,提出基于样本分布与熵相结合的处理数值型属性的方法。基于UCI数据的实验结果表明,该方法不仅具有比较好的判决精度,而且具有更快的计算速度。
- 林永民吕震宇赵爽朱卫东
- 关键词:数值型属性离散化
- 基于部首合并的自适应文字切分制作笔迹纹理被引量:1
- 2009年
- 目前笔迹鉴别预处理阶段的纹理图像制作通常采用压缩行距及字间距的方式,由于样本中存在随机出现的过长笔画,导致制作出的纹理不均匀,以致影响最终的笔迹鉴别结果。提出了一种基于偏旁部首合并的自适应文字切分算法,实验表明采用此算法能够对粘连的文字进行有效切分并且能够确保分字的正确,从而制作出的纹理更加均匀,能够有效提高笔迹鉴别的效果。
- 吕震宇赵爽林永民朱卫东
- 关键词:自适应文字切分笔迹鉴别纹理