张晶
- 作品数:5 被引量:23H指数:3
- 供职机构:山西大学计算机与信息技术学院更多>>
- 发文基金:山西省回国留学人员科研经费资助项目国家自然科学基金山西省科技攻关计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于粗糙集的多标记专属特征学习算法被引量:10
- 2015年
- 基于专属特征的多标记学习算法使用K-Means聚类算法对标记的正反样例进行聚类,进而构造每个标记的专属特征.但该方法对标记和专属特征之间的相关性缺乏理论性地探究,而且K-Means聚类方法仅仅局限于数值属性数据聚类.对此,一个基于粗糙集的多标记专属特征学习算法(R-LIFT Algorithm)被提出,其使用粗糙集的约简算法来计算每个标记的专属特征.该算法选取的专属特征是原始特征,具有直观意义,并且能够从理论上保证专属特征与标记之间具有较强的相关性.实验表明,R-LIFT算法能够有效地学习专属特征,并进一步提高多标记学习算法的性能.
- 李华李德玉王素格张晶
- 关键词:多标记学习粗糙集
- 基于多标记学习的汽车评论文本多性能识别
- 汽车产品评论文本中出现的多方面性能,提出一种基于多标记学习的汽车评论文本多方面性能识别方法.首先,结合文本挖掘方法,利用多标记文本特征选择方法选取特征,将非结构化的文本转化为结构化的多标记数据集.在此基础上,使用4种多标...
- 张晶李德玉王素格
- 关键词:文本处理多标记学习
- 基于稳健模糊粗糙集模型的多标记文本分类被引量:7
- 2015年
- 针对多标记数据的不确定性以及噪声数据的存在,提出了一种新的多标记稳健模糊粗糙分类模型。该模型是处理单标记分类问题的k-mean稳健统计量模糊粗糙分类模型的扩展应用。对于每个待分类数据,首先根据相似性计算方法,得到它们相对于各标记的隶属度;然后根据隶属度定义待分类数据与各标记的相关度;最后为每一组相关度赋予合适的阈值,得到相关的标记集合。在3个标准多标记数据集和1个真实多标记文本数据集上的实验结果表明,对于多标记文本分类问题,所提模型在6个常用的多标记评测指标上较常用的ML-kNN和rank-SVM多标记学习方法具有更高的准确率。
- 张晶李德玉王素格李华
- 关键词:模糊粗糙集多标记学习
- 基于多标记学习的汽车评论文本多性能识别被引量:3
- 2016年
- 针对汽车产品评论文本中出现的多方面性能,提出一种基于多标记学习的汽车评论文本多方面性能识别方法。首先,结合文本挖掘方法,利用多标记文本特征选择方法选取特征,将非结构化的文本转化为结构化的多标记数据集。在此基础上,使用四种多标记分类方法,对待识别的评论文档标注一个或多个方面标记。最后,以八种多标记评价指标评估方面识别的性能。在新浪汽车评论语料上的实验表明,方面识别的子集准确率达到了95%,验证了方法的可行性。
- 张晶李德玉王素格
- 关键词:多标记学习文本处理
- 多标记数据特征提取方法的核改进被引量:4
- 2015年
- 针对多标记数据特征提取方法中输出核函数没有准确刻画标记间的相关性的问题,在充分度量标记间相关性的基础上,提出了两种新的输出核函数构造方法。第一种方法首先将多标记数据转化为单标记数据,并使用标记集合来刻画标记间的相关性;然后从损失函数的角度出发定义新的输出核函数。第二种方法是利用互信息来度量标记间的两两相关性,在此基础上进一步构造新的输出核函数。3个多标记数据集上2种分类器的实验结果表明,与原有核函数对应的多标记特征提取方法相比,基于损失函数的输出核函数对应的特征提取方法性能最好,5个评价指标的性能平均提高了10%左右,尤其在Yeast数据集上,Coverage指标下降幅度达到了30%左右;基于互信息的输出核函数次之,性能平均提高了5%左右。实验结果表明,基于新的输出核函数的特征提取方法能够更加有效地提取特征,并进一步简化分类器的学习过程,提高分类器的泛化性能。
- 李华李德玉王素格张晶
- 关键词:多标记学习核函数损失函数互信息