金连
- 作品数:3 被引量:26H指数:2
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Map-Reduce的大数据缺失值填充算法被引量:18
- 2013年
- 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
- 金连王宏志黄沈滨高宏
- 关键词:缺失值填充MAP-REDUCE
- 基于Map-Reduce的大数据缺失值填充算法
- 值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相...
- 金连王宏志黄沈滨高宏
- 关键词:信息查询
- 不完全数据中缺失值填充关键技术研究
- 无论在研究领域还是工程领域,缺失数据都是一个不能忽视的严重问题。尤其随着数据收集工作从人工转向机器,数据量的急速膨胀使得各种数据质量问题混杂其中,其中数据缺失更是难以避免。不正确的度量方法、收集条件的限制、手动录入时出现...
- 金连
- 关键词:数据收集缺失值填充贝叶斯网络
- 文献传递