孙纪舟
- 作品数:3 被引量:12H指数:3
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划教育部“新世纪优秀人才支持计划”更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于社会网络分析的多属性关联规则挖掘方法被引量:6
- 2012年
- 应用社会网络分析的方法解决多属性关联规则挖掘的问题,这是解决这类问题全新的视角。首先,从啤酒的不同品牌与尿不湿不同颜色的搭配引出了多属性关联规则挖掘的问题,并指出这类问题也包含着广泛的评价和推荐问题;而后,基于社会网络分析的视角,建立了相应的图模型及与之等价的矩阵,通过对图和矩阵的分析,引出了多属性关联规则挖掘的方法;为了进一步使方法有助于程序化表达,将既有的方法通过引入“指标向量”实现了统一表达,这有助于程序递归的实现;最后,给出了本文方法的算法步骤,并将其应用在一个100000评估量规模的数据集上对方法进行实证分析。结果表明:本文通过社会网络分析的视角将抽象的关联规则挖掘变得可视化,这便于矩阵表达的引入,使得到的方法具有算法复杂度低、直观和易于把握的特征,相比于既有的多属性关联规则挖掘算法有优势。
- 李永立吴冲刘一丹孙纪舟
- 关键词:关联规则多属性数据挖掘社会网络分析
- 微函数依赖及其推理被引量:3
- 2016年
- 起初,作为一个数据库模式设计的工具,函数依赖理论得到了很多的关注,而在数据修复中,该理论并不是十分有效.近年来,针对不一致数据的检测和修复问题,更多的约束被提出来,包括条件函数依赖、修复规则以及编辑规则等.然而,这些方法都只关注了属性整体之间的依赖关系,而实际应用中的数据通常有属性部分之间的依赖关系.例如,某单位员工的工号前两位决定了其所属的部门,而此类依赖信息就被已有方法忽略.该文首先提出了一类更一般化的约束——微函数依赖,微函数依赖引入提取函数,用来表示属性的部分信息.利用提取函数之间的依赖关系,能够检测出更多的不一致数据.理论方面,该文首先研究了微函数依赖的可满足性问题和蕴含问题,然后提供了一个正确且完备的推理系统.最后,通过实验证实了微函数依赖能够在可接受的时间开销内检测出更多的错误数据.
- 孙纪舟李建中高宏刘显敏
- 基于能量过滤的不确定时间序列数据清洗方法被引量:3
- 2019年
- 精确度是数据科学领域研究的重要方面,对后续数据处理等过程都有至关重要的影响.利用多个传感器返回的多个时间序列可提升时间序列数据的精确度,称为不确定时间序列,这多个时间序列样本在真实数据上下随机波动.已有关于时间序列的研究大多直接在不确定时间序列上提出新算法,其缺点是算法复杂度通常较高,直接对不确定时间序列进行清洗,获得尽可能接近真实的数据有重要意义.本文提出基于能量过滤的方法对不确定时间序列进行清洗,实验结果表明与已有方法相比,本文方法在效果和效率上都更优.
- 孙纪舟李建中
- 关键词:数据清洗