您的位置: 专家智库 > >

李宁宁

作品数:2 被引量:45H指数:1
供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
发文基金:中国博士后科学基金国家教育部博士点基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇会议论文

领域

  • 1篇自动化与计算...

主题

  • 2篇数据清洗
  • 2篇大数据
  • 1篇运行效率
  • 1篇数据库
  • 1篇海量
  • 1篇海量数据
  • 1篇HADOOP
  • 1篇MAPRED...

机构

  • 2篇哈尔滨工业大...

作者

  • 2篇李宁宁
  • 1篇高宏
  • 1篇王宏志
  • 1篇杨东华
  • 1篇李建中

传媒

  • 1篇计算机学报

年份

  • 1篇2016
  • 1篇2014
2 条 记 录,以下是 1-2
排序方式:
基于任务合并的并行大数据清洗过程优化被引量:45
2016年
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率.
杨东华李宁宁王宏志李建中高宏
关键词:大数据海量数据数据清洗HADOOPMAPREDUCE
基于任务合并的并行大数据清洗过程优化
质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存...
杨东华李宁宁王宏志李建中高宏
关键词:数据库数据清洗运行效率
共1页<1>
聚类工具0