高红超
- 作品数:4 被引量:168H指数:3
- 供职机构:陕西师范大学计算机科学学院更多>>
- 发文基金:中央高校基本科研业务费专项资金陕西省科技攻关计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术一般工业技术电子电信更多>>
- 基于统计相关性与K-means的区分基因子集选择算法
- 针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择。算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关...
- 谢娟英高红超
- 关键词:K-MEANS聚类
- 粒计算优化初始聚类中心的K-medoids聚类算法被引量:13
- 2015年
- 针对快速K-medoids聚类算法所选初始聚类中心可能位于同一类簇的缺陷,以及基于粒计算的K-medoids算法构造样本去模糊相似矩阵时需要主观给定阈值的缺陷,提出了粒计算优化初始聚类中心的K-medoids聚类算法。该算法结合粒计算与最大最小距离法,优化K-medoids算法初始聚类中心的选取,选择处于样本分布密集区域且相距较远的K个样本作为初始聚类中心;使用所有样本的相似度均值作为其构造去模糊相似矩阵的阈值。人工模拟数据集和UCI机器学习数据库数据集的实验测试表明,新K-medoids聚类算法具有更稳定的聚类效果,其准确率和Adjusted Rand Index等聚类结果评价指标值优于传统K-medoids聚类算法、快速K-medoids聚类算法和基于粒计算的K-medoids聚类算法。
- 谢娟英鲁肖肖屈亚楠高红超
- 关键词:粒计算初始聚类中心
- 基于统计相关性与K-means的区分基因子集选择算法被引量:56
- 2014年
- 针对高维小样本癌症基因数据集的有效区分基因子集选择难题,提出基于统计相关性和K-means的新颖混合基因选择算法实现有效区分基因子集选择.算法首先采用Pearson相关系数和Wilcoxon秩和检验计算各基因与类标的相关性,根据统计相关性原则选取与类标相关性较大的若干基因构成预选择基因子集;然后,采用K-means算法将预选择基因子集中高度相关的基因聚集到同一类簇,训练SVM分类模型,计算每一个基因的权重,从每一类簇选择一个权重最大或者采用轮盘赌思想从每一类簇选择一个得票数最多的基因作为本类簇的代表基因,各类簇的代表基因构成有效区分基因子集.将该算法与采用随机策略选择各类簇代表基因的随机基因选择算法Random,Guyon的经典基因选择算法SVM-RFE、采用顺序前向搜索策略的基因选择算法SVM-SFS进行实验比较,几个经典基因数据集上的200次重复实验的平均实验结果表明:所提出的混合基因选择算法能够选择到区分性能非常好的基因子集,建立在该区分基因子集上的分类器具有非常好的分类性能.
- 谢娟英高红超
- 关键词:相关系数秩和检验K-MEANS聚类FILTER
- K近邻优化的密度峰值快速搜索聚类算法被引量:100
- 2016年
- 针对2014年6月发表在Science的密度峰值点快速搜索聚类算法的样本局部密度定义和样本分配策略的缺陷,提出一种基于K近邻的快速密度峰值搜索并高效分配样本的聚类算法.算法利用样本点的K近邻信息定义样本局部密度,搜索和发现样本的密度峰值,以峰值点样本作为初始类簇中心;提出两种基于K近邻的样本分配策略,依次分配样本到相应类簇中心,得到数据集样本的分布模式.理论分析和在经典人工数据集、UCI数据集及Olivetti人脸数据集的对比实验表明:提出的基于K近邻的密度峰值搜索聚类算法能快速发现任意形状、任意维度和任意规模数据集的类簇中心,并合理分配样本到相应类簇,揭示数据集样本的分布模式,对噪声数据具有非常好的鲁棒性,聚类结果优于2014年6月发表在Science的密度峰值点快速搜索聚类算法,以及经典聚类算法AP,DBSCAN和K-means.本文算法是一种非常有效的聚类算法,可用于发现任意数据集的隐藏模式与规律.
- 谢娟英高红超谢维信
- 关键词:K近邻聚类