针对Mohemmed等新近提出的基于粒子群优化(PSO)算法的离群点检测方法(MOHEMMED A,ZHANGM,BROWNE W.Particle swarm optimisation for outlier detection[C]//GECCO'10:Proceedings of the 12th AnnualConference on Genetic and Evolutionary Computation.Oregon,Portland:ACM,2010:83-84)可能出现适应值和相应数据对象的离群度不匹配的不合理现象,分析了存在这种现象的原因,并提出一种改进的适应值函数。新的适应值调整了对不合理邻域半径估值的惩罚力度,从而弱化粒子适应值和对象离群度之间的偏差;算法在解空间范围内搜索近似最优粒子,以确定合适的邻域半径估值;最终基于该半径估值衡量各数据对象的离群度。通过对若干UCI数据集的实验表明,采用新的适应值函数的离群检测算法优于原有方法和LOF方法。所提算法不仅解决了上述存在的问题,离群点检测效果也更突出,这表明合理定义适应值函数有助于提高算法的检测质量。
针对DBSCAN(Density Based Spatial Clustering of Applications with Noise)算法对参数敏感且无法适用于多密度数据集聚类的缺点,提出一种改进的基于一维投影分析的无参数多密度聚类算法PFMDBSCAN(Parameter Free Multi-Density Clus-tering Using One-dimensional Projection Analysis).算法首先对数据集进行一维投影,并对投影后的数据进行高斯核密度估计,据此采用极值策略得到多个局部密度估计值,将每个局部密度估计值转换为参数后依次调用DBSCAN进行聚类,最终得到完整的聚类结果.该算法达到了聚类无参数化且能适用于多密度的目标.实验表明,本文提出的无参数算法对单密度和多密度数据集都有较好的聚类效果,能适用于任意形状、任意密度的数据集,且具有较强的抗噪性.与近期文献中提出的无参数多密度聚类算法APSCAN相比,不仅聚类效果更好,且计算复杂性更低.
Michael K.Ng等人提出了新K-Modes聚类算法,它采用基于相对频率的启发式相异度度量方法,有效地提高了聚类精度,但不足的是在计算各类的属性分类值频率时假定类中样本对聚类的贡献相同。为了考虑类中样本对类中心的不同影响,提出一种粗糙K-Modes算法,通过粗糙集的上、下近似度量数据样本在类内的重要性程度,不仅可以获得比新K-Modes算法更好的聚类效果,而且可以在保证聚类效果的基础上降低白亮等人提出的基于粗糙集改进的K-Modes算法的计算复杂度。对几个UCI的数据集的测试实验结果显示出新算法的优良性能。