公共文化服务平台

样本大小对非平衡数据分类的影响: 2010年; 探讨了影响稀有类分类的各个因素,针对影响稀有类中的一个因素——样本大小对稀有类的影响进行了研究。; 职为梅范明叶阳东; 关键词：稀有类组合分类器

利用PCA和AdaBoost建立基于贝叶斯的组合分类器被引量：7: 2010年; 提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost。本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集。通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集。在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器。从UCI标准数据集中随机选取30个数据集进行实验。结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率。; 陈松峰范明; 关键词：组合分类器主成分分析 ADABOOST 贝叶斯

抽样技术和CBES分类非平衡数据集: 2013年; CBES是面向非平衡数据集分类的组合选择方法。相关的实验表明,CBES方法能大幅度提升基分类器的泛化能力。已有研究表明,抽样方法能有效提高分类器在非平衡数据集分类上的性能。因此,巧妙地将抽样技术应用到CBES方法中,进而提出基于抽样的CBES方法(SCBES),以期进一步提高CBES在稀有类上的性能。大量的实验表明,巧妙地使用抽样方法能进一步提高CBES方法在非平衡数据集分类上的性能。; 职为梅郭华平范明; 关键词：非平衡数据集组合分类器抽样技术

一种基于束状搜索的组合分类器修剪方法被引量：2: 2011年; 以现有组合分类器修剪方法为基础,从增大搜索空间的角度出发,提出一种基于束状搜索的组合分类器修剪方法,在每一步增加或删除一个基分类器时都保存最优的前k个组合。该方法既保持了爬山搜索算法的高效剪枝特性,又能有效减小其过快收敛到局部最优解的可能性,使修剪得到的组合基分类器更接近于全局最优。与传统组合分类器修剪方法的对比结果表明,该方法修剪所得的组合分类器具有更高的分类准确率,并且组合规模也有所降低。; 王亚松郭华平范明

一种改进的基于最大流的Web社区挖掘算法被引量：3: 2009年; 针对原始最大流算法给每条边的边容量分配一个常量值,在社区质量及成员数量上造成的问题,提出了一种改进的Web社区挖掘算法。该算法考虑不同边的重要性差异,将加权PageRank算法中页面的重要度转化为衡量页面之间边重要性的传递概率值,并使用该值对边容量进行赋值。实验结果表明,改进的算法有效地提高了Web社区的质量。; 张金增范明; 关键词：WEB社区最大流算法

邮件社区划分和小世界网络被引量：6: 2008年; 讨论了邮件社区的划分和邮件社区的性质,提出一种基于社区中心动态调整的邮件社区划分算法ACCD。算法采用基于邮箱通信行为特征的余弦相似度评估邮箱之间的相似性,并通过社区中心动态调整的方法进行邮件社区的划分。在实际数据集上的实验表明,在较长一段时间内,一个较大的局域网内部的邮件网络呈现显著的小世界网络特征,同时也表明了邮件社区划分算法的合理性。; 李军利赵红领范明; 关键词：数据挖掘社会网络小世界网络

一种基于EVS相似度的邮件社区聚类方法: 2010年; 聚类方法的核心是如何度量事物间的邻近性。介绍了邮件特征的向量表示形式、构建了邮件特征矩阵,并使用变形后的极值分布函数模型拟合了邮件间通信特征信息;在此基础上提出了一个新的邻近性度量方法(ex-treme value distribution similarity,EVS),用以指导邮件社区划分;使用微聚类-宏聚类邮件社区划分算法验证了该方法的有效性。实验表明,在测试数据集上,相比余弦、PCC等经典的邻近性度量方法,以EVS作为划分依据的邮件社区划分算法能够更加有效地发现高质量的邮件社区。; 王芳郭华平牛常勇范明; 关键词：社会网络极值分布

非平衡数据集分类方法探讨被引量：9: 2012年; 由于数据集中类分布极不平衡,很多分类算法在非平衡数据集上失效,而非平衡数据集中占少数的类在现实生活中通常具有显著意义,因此如何提高非平衡数据集中少数类的分类性能成为近年来研究的热点。详细讨论了非平衡数据集分类问题的本质、影响非平衡数据集分类的因素、非平衡数据集分类通常采用的方法、常用的评估标准以及该问题中存在的问题与挑战。; 职为梅郭华平范明叶阳东; 关键词：非平衡数据集抽样技术代价敏感学习

基于基本显露模式的电子邮件分类与过滤技术被引量：3: 2008年; 垃圾邮件问题日益严重,受到研究人员的广泛关注.基于内容分类与过滤垃圾邮件是当前解决垃圾邮件问题的主流技术之一.本文对电子邮件内容做了深入的研究,提出了一种更适合垃圾邮件分类的新的特征提取方法,并将新的特征提取方法与基于essential emerging pattern(eEP)的分类算法CeEP相结合,应用于垃圾邮件检测,实现了一种基于eEP的电子邮件分类与过滤算法(thee-mail categorization and filtering technology based on eEP,ECFEP).实验表明,新的特征提取方法与CeEP分类算法的结合是一种十分高效的分类方法,算法ECFEP的分类效率均高于目前几种较好的分类算法.; 李艳范明; 关键词：电子邮件分类特征提取基本显露模式

面向范畴类型数据的sIB算法被引量：5: 2009年; 本文针对sIB算法仅适用于共现数据的问题,提出了一种能够自动进行范畴类型数据分析的sIB算法:CD-sIB.该算法根据范畴类型数据的离散化表示、不同属性值有限的特征,进行数据的属性的拓展和二元化处理,基于属性值的出现进行X,Y的联合分布的计算,使得sIB算法可有效应用于范畴类型数据的分析.实验结果表明:CD-sIB算法相对于现有的面向范畴类型数据聚类模式分析的算法GAClust和K-modes具有明显的优势;CD-sIB算法在进行数据属性概化程度高、类数据分布相对平衡的范畴类型数据的分析中,在效率和精确度方面均很突出.; 叶阳东何锡点贾利民; 关键词：IB理论 SIB算法概化聚类

渝B2-20050021-1　渝公网安备 50019002500403号　违法和不良信息举报中心　互联网出版许可证　新出网证(渝)字10号

国家自然科学基金(60773048)