您的位置: 专家智库 > >

姜高霞

作品数:24 被引量:55H指数:4
供职机构:山西大学计算机与信息技术学院更多>>
发文基金:国家自然科学基金山西省回国留学人员科研经费资助项目山西省高等学校科技创新项目更多>>
相关领域:自动化与计算机技术理学经济管理天文地球更多>>

文献类型

  • 20篇期刊文章
  • 2篇学位论文
  • 1篇会议论文
  • 1篇专利

领域

  • 17篇自动化与计算...
  • 6篇理学
  • 1篇经济管理
  • 1篇天文地球

主题

  • 10篇噪声
  • 10篇标签
  • 8篇噪声过滤
  • 4篇函数型数据
  • 3篇离群点
  • 3篇离群点检测
  • 2篇置信度
  • 2篇数据拟合
  • 2篇数值型
  • 2篇清洗方法
  • 2篇互信息
  • 2篇降水
  • 2篇降水量
  • 2篇概率抽样
  • 2篇K近邻
  • 1篇点检测算法
  • 1篇月降水
  • 1篇月降水量
  • 1篇噪声估计
  • 1篇噪声因子

机构

  • 22篇山西大学
  • 2篇华北电力大学
  • 1篇教育部
  • 1篇太原电力高等...

作者

  • 24篇姜高霞
  • 19篇王文剑
  • 1篇杜航原
  • 1篇王丽
  • 1篇门昌骞
  • 1篇朱勇华
  • 1篇王丽
  • 1篇宁亚楠
  • 1篇张文凯

传媒

  • 3篇模式识别与人...
  • 2篇计算机应用
  • 2篇小型微型计算...
  • 2篇计算机科学
  • 1篇自动化学报
  • 1篇计算机研究与...
  • 1篇清华大学学报...
  • 1篇水电能源科学
  • 1篇国防科技大学...
  • 1篇统计与信息论...
  • 1篇软件学报
  • 1篇陕西师范大学...
  • 1篇太原师范学院...
  • 1篇金陵科技学院...
  • 1篇计算机科学与...

年份

  • 1篇2024
  • 1篇2023
  • 2篇2022
  • 3篇2021
  • 3篇2020
  • 2篇2019
  • 2篇2018
  • 1篇2017
  • 1篇2016
  • 1篇2015
  • 5篇2014
  • 2篇2012
24 条 记 录,以下是 1-10
排序方式:
一种个性化k近邻的离群点检测算法被引量:9
2020年
在基于近邻思想的离群点检测算法中,参数k的选择是无法避免的,而k值过大或者过小都会对检测效果产生很大的影响.因此,如何选择k值是近邻方法研究中的重要内容之一.本文提出一种个性化k近邻(Personalized k-Nearest Neighbor,PKNN)的离群点检测方法,其每一个数据点的近邻个数是由算法自动确定,而不需要人为指定.位于稠密区域的点具有更多邻居,而位于稀疏区域的点具有更少的邻居.因此,PKNN方法确定的个性化近邻参数,更符合数据集的直观分布.实验结果表明,与现有方法相比,PKNN算法有很好的离群点检测效果.
樊瑞宣姜高霞王文剑
关键词:离群点检测参数选择
基于局部概率抽样的标签噪声过滤方法被引量:3
2021年
分类学习任务中,在获取数据的过程中会不可避免地产生噪声,特别是标签噪声的存在不仅使得学习模型更复杂,而且容易造成过拟合并导致分类器泛化能力的下降。标签噪声过滤算法虽然在一定程度上可以解决上述问题,但是仍然存在噪声识别能力较差、分类效果不够理想以及过滤效率低等问题。针对这些问题,提出一种基于标签置信度分布的局部概率抽样方法来进行标签噪声过滤。首先利用随机森林分类器对样本的标签进行投票,从而获取每个样本的标签置信度;然后根据标签置信度的大小,将样本划分为易识别样本和难识别样本;最后分别采用不同的过滤策略对样本进行过滤。实验结果表明,在标签噪声存在的情况下,所提方法在大多数案例上能够保持较高的噪声识别能力,并且在分类泛化性能上也具有明显优势。
张增辉姜高霞王文剑
关键词:噪声过滤
面向回归任务的数值型标签噪声过滤算法被引量:2
2022年
回归任务中的数值型标签噪声可能误导模型训练,进而弱化模型泛化能力.作为一种常用的标签噪声处理技术,噪声过滤通过去除误标记样本来降低噪声水平,但无法保证过滤后模型能够获得更好的泛化表现.一些过滤算法过于关注噪声水平,以至于大量无噪样本也被去除.尽管已有样本过滤框架能够平衡样本去除量和噪声水平,但其形式过于复杂不利于直观理解和实际应用.根据无噪回归任务中的学习理论提出了面向数值型标签噪声数据的泛化误差界,从而明确了影响模型泛化能力的关键数据因素(数据量和噪声水平).在此基础上提出一种可解释的噪声过滤框架,其目标是以较小的样本去除代价最大程度地降低噪声水平.针对噪声估计问题,从理论上分析了噪声与覆盖区间关键指标(中心和半径)之间的变化趋势,进而构建了相对噪声估计方法.此方法与所提框架结合形成了相对噪声过滤(relative noise filtering,RNF)算法.在标准数据集和年龄估计数据上均验证了算法的有效性.实验结果表明:该算法能够适应各类噪声数据,显著提升模型泛化能力.在年龄估计数据上RNF算法检测出一些标签噪声数据,有效提升了数据质量和模型预测性能.
姜高霞王文剑
关键词:噪声过滤
极限距离噪声估计与过滤方法
2023年
近年来,机器学习不断取得显著性进展并被成功应用于诸多领域,然而很多学习模型或算法高度依赖数据的标签质量。实际应用中大量数据集普遍存在复杂的标签噪声,因此机器学习在低质数据建模和标签噪声处理方面面临严峻挑战。文中针对回归中的数值型标签噪声,从理论分析和仿真实验的角度研究了标签估计区间与噪声的关联性,提出了一种极限距离噪声估计方法。在最优样本选择框架下,基于此噪声估计方法提出了一种极限距离噪声过滤(Limit Distance Noise Filtering, LDNF)算法。实验结果表明,所提噪声估计方法与真实标签噪声具有更高的相关性和更低的估计偏差。在标准数据集和真实年龄估计数据集上证实了所提过滤算法可以在不同噪声环境下有效识别标签噪声并减小模型的测试误差,其表现优于最新的其他过滤算法。
姜高霞秦佩王文剑
关键词:噪声估计
基于主动学习的标签噪声清洗方法被引量:4
2020年
在监督分类学习中,标签噪声对模型有重要的影响;而现有的标签噪声过滤方法一般都是基于模型的预测结果对噪声样本进行检测并去除,当噪声样本较多时,去除噪声样本的同时将会影响原来样本的完整性,使样本信息缺失。针对这一问题,提出一种基于主动学习的标签噪声清洗方法(active label noise cleaning based on classification with gaussian process,GP_ALNC),该方法将高斯过程模型和主动学习相结合,从已有标签样本集中筛选出不确定性最高的样本交给人工专家进行检验,通过这种迭代方法清洗掉大部分噪声数据的同时保持了原有数据的完整性;并针对二分类任务中的标签噪声问题,在MNIST数据集和UCI数据集上,与已有方法ALNR(active label noise removal)以及ICCN_SMO(iterative correction of class noise based on SMO)进行了实验对比,并取得了不错的表现。
孟晓超姜高霞王文剑
关键词:高斯过程
考虑季节及地域的月降水量三层回归模型及应用
2012年
基于不同地域月降水量的特点,采用聚类方法选取两个具有代表性地域的气象数据。将交互结构数据转化为嵌套分组结构形式,从而将地域因素和季节因素作为层次效应纳入分层线性模型(HLM)。据此建立相应的三层线性模型(HLM3),按照模型理论方法进行模型计算、优化和分析以解释层次效应和检验残差。结果表明,各层解释变量(气象因素、季节效应、地域效应)能很好地解释月降水量的差异,定量指导不同地域不同季节月降水量的回归。
朱勇华姜高霞
关键词:月降水量
基于相对离群因子的标签噪声过滤方法
2024年
分类任务中含有类别型标签噪声是传统数据挖掘中的常见问题,目前还缺少针对性方法来专门检测类别型标签噪声.离群点检测技术能用于噪声的识别与过滤,但由于离群点与类别型标签噪声并不具有一致性,使得离群点检测算法无法精确检测分类数据集中的标签噪声.针对这些问题,提出一种基于离群点检测技术、适用于过滤类别型标签噪声的方法--基于相对离群因子(Relative outlier factor,ROF)的集成过滤方法(Label noise ensemble filtering method based on rel-ative outlier factor,EROF).首先,通过相对离群因子对样本进行噪声概率估计;然后,再迭代联合多种离群点检测算法,实现集成过滤.实验结果表明,该方法在大多数含有标签噪声的数据集上,都能保持优秀的噪声识别能力,并显著提升各种分类模型的泛化能力.
侯森寓姜高霞王文剑
关键词:离群点检测噪声过滤
基于非均匀采样的相关系数最大化曲线排齐方法被引量:2
2016年
在函数型数据分析中,为提高曲线排齐效率,提出如下2种非均匀采样方法对函数曲线进行排齐:基于斜率的非均匀采样(SBNS)和基于弧长的非均匀采样(ALBNS).SBNS按照函数曲线的斜率大小采样,ALBNS在函数曲线的弧长上采样.这两种方法都不是在时间轴上均匀采样,而是根据曲线的形状特征进行采样,因此可在一定程度上克服均匀采样方法由于采样点数量和位置分配不当而产生的缺陷,提高曲线排齐效果.在模拟数据和真实数据上的实验表明,两种方法在时间效率和效果上均优于均匀采样方法.
张文凯王文剑姜高霞
关键词:函数型数据非均匀采样弧长
基于动态概率抽样的标签噪声过滤方法被引量:3
2021年
在机器学习问题中,数据质量对系统预测的准确性产生了深远的影响。由于信息获取的难度大,人类的认知主观且有限,导致了专家无法准确标记所有样本。而近年来出现的一些概率抽样方法无法避免样本人为划分不合理且主观性较强的问题。针对这一问题,提出一种基于动态概率抽样(DPS)的标签噪声过滤方法,充分考虑各个数据集样本间的差异性,通过统计各个区间内置信度分布频率,分析各个区间内置信度分布信息熵的走势,确定合理阈值。在UCI经典数据集中选取了14个数据集,将所提方法与随机森林(RF)、HARF、MVF、局部概率抽样(LPS)等方法进行了对比实验。实验结果表明,所提出的方法在标签噪声识别和分类泛化上均展示出了较高的能力。
张增辉姜高霞王文剑
关键词:噪声过滤置信度
基于CBS-GM的时序数据短期预测方法被引量:1
2014年
介绍了时序数据常用的参数回归和非参数回归方法,分析并比较了各自的优势和局限。结合这些特点提出一种基于B样条系数(CBS)与灰色模型(GM)的组合预测方法CBS-GM。此预测方法兼有参数和非参数的优点,具有较强的适应性和稳健性。最后将提出的方法应用于实际数据(常规数据和含异常值数据)。结果表明,综合预测精度和速度,CBS-GM相比于GM(1,1)、ARMA、BP神经网络和SVM等4种常用预测方法具有一定优势,是一种实用、高效的短期预测方法。
宁亚楠姜高霞
关键词:非参数回归组合预测
共3页<123>
聚类工具0