李飞江
- 作品数:8 被引量:26H指数:3
- 供职机构:山西大学计算机与信息技术学院更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于空间结构的符号数据仿射传播算法被引量:3
- 2016年
- 由于符号型数据缺乏清晰的空间结构,很难构造一种合理的相似性度量,从而使诸多数值型聚类算法难以推广至符号型数据聚类.基于此种情况,文中引入一种空间结构表示方法,把符号型数据转化为数值型数据,能够在保持原符号型数据的结构特征的基础上重新构造样本之间的相似度.基于此方法,将仿射传播(AP)聚类算法迁移至符号数据聚类中,提出基于空间结构的符号数据AP算法(SBAP).在UCI数据集中若干符号型数据集上的实验表明,SBAP可以使AP算法有效处理符号型数据聚类问题,并且可以提升算法性能.
- 王齐钱宇华李飞江
- 关键词:聚类空间结构相似度
- 基于概率的支持向量数据描述方法被引量:3
- 2019年
- 针对目前概率机器学习方法在解决概率问题时具有较高的复杂度,而传统的支持向量数据描述(SVDD)作为一种核密度估计方法只能判断测试样本是否属于该类等问题,提出一种基于概率的支持向量数据描述方法。首先,利用传统的SVDD方法分别得到两类数据的数据描述,计算测试样本到超球体的距离;然后,构造一个将距离转换为概率的函数,提出一种基于概率的SVDD方法;同时,使用Bagging算法进行集成,进一步提高数据描述的性能。借鉴分类场景,将所提方法与传统的SVDD方法在Gunnar Raetsch的13种基准数据集上进行实验,实验结果表明,所提方法在准确率和F1值上优于传统的SVDD方法,并且其数据描述的性能有所提升。
- 杨晨王婕婷李飞江李飞江
- 关键词:支持向量数据描述不确定性
- 基于多角度空间结构的超多类簇聚类方法被引量:3
- 2020年
- 为应对超多类簇聚类问题,提出了一个多角度空间结构的多类簇聚类方法MS 2BC,基于空间结构表示方法与bagging特征抽样技术从多个角度构建数据的空间结构并进行集成,然后利用集成后空间结构表示完成聚类.在10个真实数据上的聚类实验验证了MS 2BC方法的有效性.
- 史欣蕊钱宇华钱宇华
- 关键词:聚类分析空间结构聚类集成数据挖掘
- 结合力导向图分布算法的特征加权深度嵌入聚类
- 2024年
- 聚类分析作为无监督学习领域的一个重要研究方向,是许多数据驱动应用的核心.但是高维数据特有的高维距离趋同特性,使得高维空间样本近邻结构遭到破坏,从而使得大量基于距离(基于近邻)的聚类算法性能急剧下降.目前,大量研究者认为,高维数据往往包含大量与任务不相关特征及相互关联的特征,其真实特征维度往往要比原始特征维度低很多.在学习样本低维等价表示上,基于深度自编码器的深度嵌入学习尽可能地保留重构信息.然而,现有此类方法往往需要聚类损失引导聚类,这虽然提高了聚类性能,但聚类损失与重构损失间的内在矛盾,限制了聚类性能的进一步提高.基于力导向图分布算法的降维算法则是尽可能保留近邻结构信息的基础上学习样本低维表示,但是高维距离趋同的特性使得此类算法较难准确获取样本高维近邻结构信息.本文在深度自编码器与力导向图分布算法的基础上引入特征加权思想,使模型在具有强大的低维等价表示能力及根据数据近邻结构凸显簇结构能力的同时考虑特征对聚类任务的适合程度.5个数据集上与最新高维聚类算法的对比实验充分证明了本文算法的合理性与优越性.
- 吕维钱宇华王婕婷李飞江李飞江
- 关键词:高维聚类特征加权
- 一种对应约束的决策表属性约简算法被引量:1
- 2015年
- 决策表属性约简是粗糙集理论中的重要问题,经典决策表属性约简方法从保持论域划分能力的角度出发,选择最优条件属性约简集。从决策属性与条件属性的相关性角度出发,将决策表属性约简思想与传统统计学中的对应分析方法相结合,提出了一种量化决策属性与条件属性之间依赖关系的度量,称为投影区分度,并基于此发展了一种决策表属性约简算法。最后用简单实例说明了该方法的正确性。
- 成红红张晓琴李飞江钱宇华
- 关键词:决策表属性约简
- 消除随机一致性的支持向量机分类方法被引量:12
- 2020年
- 在人类自身的学习过程中,对学习结果进行科学客观的评价与反馈是关键环节.通常,由于学习者的知识缺陷或证据不足使得学习过程存在随机性,进一步可能导致学习结果与实际情况产生随机一致性.对此结果的直接反馈将严重影响学习性能的提升.同样,机器学习是以数据为驱动、以目标为导向的学习系统.由于经验历史数据有限、不平衡、含噪音等特质导致学习结果具有随机一致性.然而,以准确度为反馈准则的机器学习系统无法辨识随机一致性,这会影响学习系统的泛化能力.首先给出随机准确度和纯准确度的定义,并且进一步分析消除随机准确度的意义及必要性.然后,基于纯准确度指标,提出消除随机一致性的支持向量机分类方法PASVM,并在KEEL数据集的10种不同领域的基准测试集上验证其有效性.实验结果表明:相比于SVM、SVMperf以及其他可用于优化纯准确度指标的学习方法,PASVM泛化性能有明显提高.
- 王婕婷钱宇华钱宇华刘郭庆
- 关键词:支持向量机泛化能力
- 基于对比学习的超多类深度图像聚类模型被引量:2
- 2023年
- 图像聚类通过表征学习对图像数据降维并提取有效特征而后进行聚类分析。当图像数据存在超多类别时,数据分布的复杂性和类簇的密集性严重影响了现有方法的实用性。为此,提出了基于对比学习的超多类深度图像聚类模型,主要分为3个阶段:首先,改进对比学习方法训练特征模型以使类簇分布均匀;其次,基于语义相似性原则多视角挖掘实例语义最近邻信息;最后,将实例及其最近邻作为自监督信息训练聚类模型。根据实验类型的不同,设计了消融实验和对比实验。在消融实验中,证明了所提方法使类簇均匀分布在映射空间,并可靠挖掘语义最近邻信息。在对比实验中,将其与先进算法在7个基准数据集上进行了比较,在ImageNet-200类数据集上,其准确率比目前先进方法提升了10.6%;在ImageNet-1000类数据集上,其准确率比目前先进算法提升了9.2%。
- 胡深钱宇华王婕婷李飞江李飞江
- 关键词:语义相似性图像聚类
- 全粒度聚类算法被引量:2
- 2014年
- 聚类分析是数据挖掘与知识发现领域的一个重要研究方向.多数聚类算法中相似性是其核心概念之一,对象之间的相似性会被直接或者间接的计算出来.传统的相似性度量方法多是基于单一的粒度去观察两个被测对象.在人类认知过程中,通常采用多粒度来更合理有效地进行问题求解.本文借鉴人类的这种多粒度认知机理,提出一种新的相似性学习方法,称作全粒度相似性度量方法,基于此发展了一种全粒度聚类算法.而全粒度相似性度量从各个角度观察被测对象,进而会得到两个对象间更加真实的相似度.从UCI数据集中选取5组数据进行实验,最后通过与两种传统的聚类方法比较验证了全粒度聚类算法的合理性与有效性.
- 李飞江成红红钱宇华
- 关键词:聚类分析