张雪凤 作品数:4 被引量:75 H指数:3 供职机构: 上海财经大学信息管理与工程学院 更多>> 发文基金: 国家教育部“211”工程 更多>> 相关领域: 自动化与计算机技术 更多>>
缺失数据处理方法的比较研究 数据挖掘已被广泛用于医疗领域,而大多数医疗数据集都存在缺失值。本文介绍了一些缺失值估计算法。建立了5种模型来提高预测的有效性,它们是保留缺失模型、直接丢弃模型、贝叶斯补缺模型、贝叶斯重叠补缺模型和基于信息增益的贝叶斯重叠... 刘鹏 雷蕾 张雪凤关键词:数据挖掘 缺失值 朴素贝叶斯分类器 信息增益 文献传递 基于聚类准则函数的改进K-means算法 被引量:41 2011年 K-means算法所使用的聚类准则函数是将数据集中各个簇的误差平方值直接相加而得到的,不能有效处理簇的密度不均且大小差异较大的数据集。为此,将K-means算法的聚类准则函数定义为加权的簇内标准差之和,权重为簇内数据对象数占总数目的比例。同时,调整了传统K-means算法将数据对象重新分配给簇的方法,采用一个数据对象到中心点的加权距离代替传统K-means算法中的距离,将数据对象分配给使加权距离最小的中心点所在的簇。实验结果表明,针对模拟数据集的聚类,改进K-means算法可以明显减少大而稀的簇中数据对象被错误地分配到相邻的小而密簇的可能性,改善了聚类的质量;针对UCI数据集的聚类,改进算法使得各个簇更为紧凑,从而验证了改进K-means算法的有效性。 张雪凤 张桂珍 刘鹏关键词:K-MEANS算法 基于类间差异最大化的加权距离改进K-means算法 被引量:3 2010年 为了改善K-means算法的聚类效果,将聚类准则函数定义为加权的类内误差平方总和SSE(sum of thesquared error),并调整了K-means算法迭代过程中重新分配数据对象的方法:使用一个带有类内数据对象数的加权距离作为重新分配数据对象的依据,同时按类间差异最大化为准则优化了加权距离中的参数。实验表明,改进后的K-means算法可以在很大程度上减少大类被拆分情况的发生,明显改善聚类效果。 张雪凤 刘鹏关键词:K-MEANS算法 聚类 加权距离 缺失数据处理方法的比较研究 被引量:31 2004年 数据挖掘已被广泛用于医疗领域,而大多数医疗数据集都存在缺失值。本文介绍了一些缺失值估计算法。建立了5种模型来提高预测的有效性,它们是保留缺失模型、直接丢弃模型、贝叶斯朴缺模型、贝叶斯重叠补缺模型和基于信息增益的贝叶斯重叠补缺模型。这些模型在Clinics数据集上进行了处理和分析。用C4.5决策树和10叠交叉确认法来检验这些模型的性能,结果表明根据信息增益递减顺序排序,用朴素贝叶斯分类器来预测缺失值是有效的。 刘鹏 雷蕾 张雪凤关键词:信息增益 朴素贝叶斯分类器 决策树 数据集 医疗数据