安徽省高校省级自然科学研究项目(KJ2007A051)
- 作品数:6 被引量:13H指数:2
- 相关作者:程泽凯秦锋罗慧任诗流杨帆更多>>
- 相关机构:安徽工业大学更多>>
- 发文基金:安徽省高校省级自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- BO-AUC多类分类评估方法被引量:2
- 2012年
- 分类技术是数据挖掘研究的核心技术之一,分类评估也是研究热点,基于AUC评估方法是分类评估领域的研究热点,其中B-AUC评估算法可以有效地评估分类器性能,但该评估方法有不足之处。该分类评估方法建立在不对称的两个类别上,影响了评价结果;根据非完全二叉树思想存储,浪费了存储空间;基于偏二叉树的搜索效率不高。利用完全二叉树的构造思想提出了BO-AUC评估方法,该方法将n个类别的分类问题分解为独立的二类进行成对的计算,可以有效地解决B-AUC的不足,进一步扩展基于AUC的评估标准,在MBNC实验上编程实现该方法,实验结果表明BO-AUC方法的有效性。
- 秦锋杨帆程泽凯刘牛
- 关键词:完全二叉树分类器性能
- 用于多标记学习的阈值确定算法被引量:1
- 2010年
- 提出一种多标记学习阈值确定算法(DTML),为每个类别标记确定一个阈值。当分类器将一个测试示例预测为某个类别标记的分值大于该类别标记的阈值时,则将该类别标记添加到该测试示例的最终分类结果中。该算法采用编程实现,并将其应用于PT5方法和TML算法。实验结果表明,利用DTML算法为多标记学习算法确定阈值,能够得到较好的分类效果。
- 秦锋黄俊程泽凯
- 关键词:数据挖掘多标记学习
- 基于AUC方法评估多类别贝叶斯分类器的性能被引量:2
- 2007年
- 分类器评估一般采用准确性评估。理论证明,基于AUC方法评估分类器优于准确性评估方法,但该方法局限于二类分类问题。提出一种将二类分类问题推广到多类分类问题的新方法,用纠错输出码转换得到转换矩阵,通过转换矩阵把多类分类问题转换成二类分类问题,计算二类分类的平均值来评估分类器的性能。新方法在MBNC实验平台下编程实现,并评估贝叶斯分类器的性能,实验结果表明,这种方法是有效的。
- 秦锋罗慧程泽凯任诗流陈莉
- 关键词:多类分类
- 基于不同权重的多标签分类器准确性评估方法
- 2011年
- 分类问题是数据挖掘领域的研究热点之一。多标签分类器可以将数据对象预测为多个类别,训练集中属性相同但对应类标签不同的对象的数目是不平衡的,而现有的评估算法并未能区分其代价。提出了一种基于不同权重的准确性评估方法EMOWDIF,根据多标签数据对象属于相同属性不同类别的数目之间的比值计算相应的权重,对分类器模型给予不同程度的奖惩,从而区分不同分类器的性能。方法用编程实现,并对多标签数据集的分类结果进行评估。实验结果表明该方法能有效评估分类器。
- 黄俊秦锋程泽凯杨帆
- 基于ICA方法的朴素贝叶斯分类器被引量:7
- 2007年
- 朴素贝叶斯分类器是一种简单而高效的分类器,但需要属性独立性假设,无法表示现实世界中属性之间的依赖关系,影响了其分类性能。利用独立分量分析提升朴素贝叶斯分类性能,把样本投影到由独立分量所确定的特征空间,提高了朴素贝叶斯分类器的分类性能。实验结果表明,这种基于独立分量分析的朴素贝叶斯分类器具有良好的性能。
- 秦锋任诗流程泽凯罗慧
- 关键词:独立分量分析朴素贝叶斯
- 基于词条数学期望的词条权重计算方法被引量:1
- 2011年
- 文本的形式化表示一直是文本挖掘的基础性问题,向量空间模型中的TFIDF计算方法是文本表示中一种效果较好的经典词条权重计算方法。在分析传统TFIDF计算方法存在问题的基础上,针对TFIDF方法中没有考虑包含词条的文档在各个类别的分布情况以及各个类别中所含的文档数的不同。提出了将词条的数学期望(TFIDF-E)作为一个文本因子来进行改进上述问题。实验结果表明,TFIDF-E计算方法表示的文本分类效果好于TFIDF,验证了TFIDF-E方法的有效性和可行性。
- 秦锋赵彦军程泽凯陈奇明
- 关键词:文本分类区分度数学期望