河南省科技攻关计划(0324220024)
- 作品数:7 被引量:31H指数:3
- 相关作者:张德贤张苗刘灿艾英山巩知乐更多>>
- 相关机构:河南工业大学更多>>
- 发文基金:河南省科技攻关计划更多>>
- 相关领域:自动化与计算机技术建筑科学更多>>
- 多类支持向量机文本分类方法被引量:20
- 2008年
- 文本分类是数据挖掘的基础和核心,支持向量机(SVM)是解决文本分类问题的最好算法之一。传统的支持向量机是两类分类问题,如何有效地将其推广到多类分类问题仍是一项有待研究的课题。介绍了支持向量机的基本原理,对现有主要的多类支持向量机文本分类算法进行了讨论和比较。提出了多类支持向量机文本分类中存在的问题和今后的发展。
- 张苗张德贤
- 关键词:文本分类支持向量机多类支持向量机
- 基于启发式信息的支持向量机规则抽取
- 2008年
- 提出一种基于启发式信息的支持向量机规则抽取方法,解决了规则抽取中处理连续属性困难的问题。将支持向量回归(SVR)分类超曲面位置和形状特征作为启发式信息指导属性选择和属性区间的合理分割,然后给出了分类规则抽取的具体算法。通过UCI中多个数据集进行测试,证明与其他规则抽取方法相比,该方法显著提高了分类规则抽取的效率,尤其对复杂的分类问题。
- 张德贤张苗谭一鸣
- 关键词:启发式信息支持向量机支持向量回归规则抽取
- 一种在KNN查询处理中预估剪枝阈值的方法被引量:1
- 2007年
- KNN查询是多媒体数据库管理系统中最具代表性的查询方式之一。与范围查询不同,KNN查询过程中缺乏固定的剪枝阈值。为达到剪枝的目的KNN算法使用保守的KNN距离剪枝,通常把到当前访问过的第K个最近点的距离作为剪枝阈值。传统的KNN查询处理算法在找到K个候选查询结果之前无法生成剪枝阈值,使得在此期间所有访问到的节点都被置入待访问节点队列。文中提出了在KNN查询处理中预估剪枝阈值的方法,该方法在找到K个候选查询结果前通过分析当前所访问过的页区域来预估剪枝阈值,试验表明使用预估剪枝阈值进行剪枝可有效缩短待访问节点队列的长度。
- 刘灿张德贤
- 关键词:KNN查询
- 基于文本和类别信息的KNN文本分类算法被引量:2
- 2009年
- 提出了一种基于文本和类别信息的改进KNN文本分类算法。传统的KNN算法在计算样本相似度时利用的是文本和特征的相关信息,因此存在计算量大的明显缺陷,使其在具有大量高维样本的文本分类中缺乏实用性。新算法利用文本和类别的相关信息计算样本间的相似度,能够对特征维数进行有效的压缩。实验表明,该算法有较高的文本分类效率。
- 艾英山张德贤
- 关键词:文本分类K近邻法特征降维
- KNN查询处理算法性能研究被引量:5
- 2006年
- KNN查询是多媒体数据库管理系统中最具代表性的查询方式之一,它将k个与查询点最接近的对象作为查询结果返回。对于树型多维索引结构,KNN查询处理算法主要有RKV算法和HS算法。本文针对这两种不同处理算法进行了性能研究,通过试验确定了算法的不同适用场景,最后就应用中的KNN查询实现给出了相应的建议。
- 刘灿张德贤
- 关键词:KNN查询
- 文本挖掘理论概述被引量:3
- 2008年
- 文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况,之后着力对当前基于Web文本挖掘的一般处理过程进行了详细的描述,同时总结了文本分类和文本聚类的一些主要算法,在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。
- 巩知乐张德贤
- 关键词:文本挖掘WEB文本挖掘文本分类文本聚类
- 基于聚类和密度的KNN分类器训练样本约减方法
- 2009年
- 提出了一种基于聚类和密度的KNN分类器训练样本约减方法。使用KNN分类器进行文本分类的时侯,由于训练样本在类别内分布的不均匀,会造成分类准确性的下降,而且相似度计算量非常大。新方法根据训练样本的密度采用聚类的方法,约减了一定数量的"噪声"样本。实验表明,使用该方法能同时提高KNN分类器的准确率和效率。
- 艾英山张德贤
- 关键词:K近邻法样本聚类样本密度