马洋
- 作品数:18 被引量:30H指数:3
- 供职机构:太原科技大学更多>>
- 发文基金:国家自然科学基金山西省青年科技研究基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学天文地球更多>>
- 基于相关子空间的多源离群检测算法被引量:1
- 2021年
- 传统的离群检测方法多数源于单个数据集或多数据源融合后的单一数据集,其检测结果忽略了多源数据之间的关联知识和单数据源中的关键信息。为了检测多源数据之间的离群关联知识,提出一种基于相关子空间的多源离群检测算法RSMOD。结合k近邻集和反向近邻集的双向影响,给出面向多源数据的对象影响空间,提高了离群对象度量的准确性;在影响空间基础上,提出面向多源数据的稀疏因子及稀疏差异因子,有效地刻画了数据对象在多源数据中的稀疏程度,重新定义了相关子空间的度量,使其能适用于多源数据集,并给出基于相关子空间的离群检测算法;采用人工合成数据集和真实的美国人口普查数据集,实验验证了RSMOD算法的性能并分析了源于多数据集的离群关联知识。
- 马洋赵旭俊
- 关键词:离群检测多源数据子空间数据挖掘
- 基于离群数据挖掘的机械产品加工工序异常并行检测方法
- 本发明基于离群数据挖掘的机械产品加工工序异常并行检测方法,属于机械产品加工数据分析与处理技术领域;所要解决的技术问题为提供一种基于离群数据挖掘的机械产品加工工序异常检测方法,该方法从加工生产所积累的大量合格机械产品数据中...
- 赵旭俊马洋张继福蔡江辉杨海峰
- 文献传递
- 基于k近邻连接的多源数据离群检测及应用
- 工业大数据的兴起推动了智能制造的快速发展,而机械产品质量管理是智能制造中的关键内容之一。影响产品质量的问题主要分为显性问题和隐性问题两大类,隐性问题不能被直接测量、隐含在生产数据中、很难被发现,往往经过不断积累,转化为显...
- 马洋
- 关键词:大数据
- 基于稀疏子空间的类星体光谱异常特征并行提取与分析被引量:5
- 2021年
- 类星体是人类所观测到的最遥远天体,对于了解早期宇宙的演化具有重要科学意义。由于类星体距离地球较远,其红移一般较大,导致在光学观测窗口中只有很少的特征(发射线),且难以识别。类星体光谱的异常特征提取与分析可对未知类星体的识别,提供有效的判别依据。离群检测作为数据挖掘领域的一个主要研究内容,旨在发现那些稀有、特殊数据对象及异常特征,可作为从海量类星体光谱数据中,发现特殊、未知类星体的一种有效途径和手段。Spark作为新一代大数据分布式处理框架,可为海量天体光谱的有效分析和处理,提供一个高效且可靠的并行编程平台。本文充分利用集群系统和Spark编程模型的强大数据处理能力,提出一种基于稀疏子空间的类星体光谱异常特征并行提取与分析方法,其工作由三个模块组成,即类星体光谱特征约减、类星体光谱的稀疏子空间构造和搜索、类星体光谱异常特征提取并行算法设计与分析。类星体光谱特征约减模块,通过属性相关性分析来识别呈现聚类结构的类星体光谱特征线,这些特征线通常会聚集在稠密区域且对类星体光谱异常特征检测毫无意义。光谱特征约减旨在运行异常特征检测算法之前剪枝类星体光谱的冗余特征线,缩小光谱数据检测范围。类星体光谱的稀疏子空间构造和搜索模块,通过设定的稀疏系数阈值来测量类星体光谱的子空间密度,并采用粒子群优化方法作为稀疏子空间的搜索策略,从而快速、高效地获取类星体的异常特征。在第三个模块中,提出了一种MapReduce框架下的类星体光谱异常数据并行检测算法,该算法由并行化数据约减策略、稀疏子空间并行搜索技术两个MapReduce构成,达到适应海量光谱数据的处理目标。最后对检测出的部分类星体异常特征进行了理论分析、测量及人眼证认,充分说明稀疏子
- 马洋张继福蔡江辉杨海峰赵旭俊
- 关键词:类星体光谱分析
- 基于离群数据挖掘的机械产品加工工序异常并行检测方法
- 本发明基于离群数据挖掘的机械产品加工工序异常并行检测方法,属于机械产品加工数据分析与处理技术领域;所要解决的技术问题为提供一种基于离群数据挖掘的机械产品加工工序异常检测方法,该方法从加工生产所积累的大量合格机械产品数据中...
- 赵旭俊马洋张继福蔡江辉杨海峰
- 文献传递
- 基于约束概念格的恒星光谱数据分类规则挖掘系统
- 概念格是一种用于数据分析和知识提取的有效形式化工具,具有完备性和精确性等特征。约束概念格是利用用户对数据集中属性的兴趣程度等作为背景知识,来指导概念格的构造,从而使构造出的概念格结构更具有针对性和实用性。本文以国家重大科...
- 马洋
- 关键词:信息检索数据挖掘约束概念格
- 文献传递
- 基于信息熵的加权频繁模式树构造算法研究被引量:3
- 2014年
- 关联规则挖掘时,数据集中各项目的重要性不同且较难主观给出,直接影响挖掘结果.针对此问题,给出加权项目集和加权关联规则的概念,并通过信息熵来确定单属性的权重,同时采用几何均值和取最大权重值的折中方法来确定多项目集的权重,以此在兼顾整体权重的同时,突出重要项目.在此基础上,采用加权频繁模式树来提取加权频繁模式,并给出加权频繁模式树的构造方法,最后以国家天文台提供的天体光谱数据及机械装备EDEM数据作为数据集,实验验证算法的高效率.
- 赵旭俊蔡江辉马洋
- 关键词:关联规则信息熵
- 基于关联离群知识的类星体光谱并行化交叉证认方法
- 本发明公开了一种基于关联离群知识的类星体光谱并行化交叉证认方法;属于天体光谱数据分析与处理技术领域;本方法为先采用一阶谓词逻辑对先验信息进行表示,为类星体光谱的交叉证认提供指导;然后对天体光谱数据预处理:最后在Hadoo...
- 马洋赵旭俊蔡江辉杨海峰郑爱宇
- 基于剪枝的约束概念格的渐进式构造算法被引量:2
- 2009年
- 约束概念格是数据分析的一种有效工具,在其构造的过程中,大量的内涵之间比较操作是导致格的构造效率低下的主要原因之一。采用剪枝技术来消除构造过程中存在的冗余内涵比较,给出约束概念格渐进式构造算法PCCL。该算法利用父子节点内涵的严格单调关系,自顶向下扫描格节点,减少了新增对象属性集与原概念格节点内涵的比较次数,从而提高了约束概念格的构造效率。最后以天体光谱数据作为形式背景,实验验证了PCCL算法的正确性,且构造效率平均提高了15%以上。
- 马洋张继福张素兰
- 关键词:概念格冗余信息剪枝
- 基于ZigBee的养鸡场监控系统
- 一种基于ZigBee的养鸡场监控系统,属于畜牧养殖领域,特征是利用安装在养鸡场的温湿度传感器、光度传感器及利用视频采集器和音频采集器来采集养鸡场的各种信息,通过无线通信传递给监控中心的处理器,经过处理,一部分信息在监控中...
- 赵旭俊赵旭梅马洋
- 文献传递