您的位置: 专家智库 > >

王晓栋

作品数:1 被引量:8H指数:1
供职机构:英特尔亚太研发中心更多>>
发文基金:湖北省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇引擎
  • 1篇SQL
  • 1篇ADO
  • 1篇查询
  • 1篇查询引擎
  • 1篇N-H
  • 1篇SPARK
  • 1篇IMPALA

机构

  • 1篇武汉大学
  • 1篇英特尔亚太研...

作者

  • 1篇吴黎兵
  • 1篇聂雷
  • 1篇邱鑫
  • 1篇叶璐瑶
  • 1篇王晓栋

传媒

  • 1篇华中师范大学...

年份

  • 1篇2016
1 条 记 录,以下是 1-1
排序方式:
基于Hadoop的SQL查询引擎性能研究被引量:8
2016年
Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构.
吴黎兵邱鑫叶璐瑶王晓栋聂雷
关键词:SPARKSQLIMPALA
共1页<1>
聚类工具0