余雯
- 作品数:4 被引量:36H指数:2
- 供职机构:广东外语外贸大学国际工商管理学院更多>>
- 发文基金:国家自然科学基金广东省自然科学基金广东省高等学校自然科学研究重点项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于聚类和Ripper的稀有类分类方法被引量:2
- 2009年
- 稀有类分类在许多领域有重要应用,针对稀有类在数据中所占比例少,容易被忽略的特点,提出一种基于聚类和Ripper的稀有类分类方法,该方法在一趟聚类的结果中,通过将在整个数据集中所占的比例低于15%的聚类标识为少数类,再应用Ripper分类算法分别对少数类和多数类分别进行分类建模,并按照一定的组合方式调整得出整个数据集的最终规则集.在UCI数据集上的测试结果表明,基于一趟聚类和Ripper的稀有类分类方法对稀有类可产生高质量的分类效果.可以将该方法应用于现实生活的领域中进行稀有数据的分类.
- 余雯蒋盛益黄兴全
- 关键词:数据挖掘
- 基于视觉原理的密度聚类算法的改进被引量:1
- 2011年
- 结合基于视觉原理的密度聚类算法对初始化参数不敏感、能发现任意形状的聚类、能够找出最优聚类及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进基于视觉原理的密度聚类算法,使之可以处理含分类属性的数据,进而提出一种两阶段聚类算法。第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用基于视觉原理的密度聚类算法归并初始划分而得到最终聚类。在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的。
- 蒋盛益罗方伦余雯
- 基于代价敏感的朴素贝叶斯不平衡数据分类研究被引量:21
- 2011年
- 传统数据挖掘分类算法在不平衡数据集上分类效果不佳,可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题.但在代价敏感学习中,代价的确定需要足够的先验知识,难以把握.针对上述不足,构造针对不平衡数据分布的自适应代价函数,引进全局代价矩阵,对传统的朴素贝叶斯分类算法进行改进.在UCI数据集上的实验结果表明,提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的.
- 蒋盛益谢照青余雯
- 关键词:朴素贝叶斯不平衡数据分类
- 基于一趟聚类的不平衡数据下抽样算法被引量:12
- 2012年
- 抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.
- 蒋盛益苗邦余雯
- 关键词:不平衡数据