中国博士后科学基金(2013M540232) 作品数:12 被引量:108 H指数:7 相关作者: 宋杰 于戈 李甜甜 鲍玉斌 张一川 更多>> 相关机构: 东北大学 辽宁大学 中国电子技术标准化研究所 更多>> 发文基金: 中国博士后科学基金 国家自然科学基金 国家教育部博士点基金 更多>> 相关领域: 自动化与计算机技术 更多>>
NoSQL数据库间数据交换代价研究 被引量:4 2016年 随着互联网时代的到来,IT行业迅猛发展,NoSQL数据库以其在大数据环境下出色的业务处理处理能力,在IT行业内得到越来越广泛的应用。而各NoSQL数据库由于自身数据模型的不同,在数据组织方式上彼此存在差异。NoSQL数据库间进行数据交换时,数据模型的不同会导致数据库间数据传输的阻抗,以源数据库数据模型封装的业务数据可能无法直接被目标数据库解析,需进行额外的模型适配操作,参照目标数据库数据模型组织业务数据以供筛选存储。为此,拟定义一种数据描述模型,对NoSQL数据库数据模型特征建模,描述NoSQL数据库的数据组织方式,并定义NoSQL数据库数据模型间距离评估算法。根据数据描述模型与距离评估算法可设计实现一种通用数据模型,其在数据交换过程中可与相关NoSQL数据库进行数据模型上的转换,系统相关业务代码只需参照该数据模型设计,而独立于数据交换过程中NoSQL数据库具体的数据模型。 郭昆 宋杰 王洁萍 朱志良关键词:NOSQL 数据交换 数据模型 大数据分析的分布式MOLAP技术 被引量:34 2014年 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,学界和业界广泛采用分布式文件系统和MapReduce编程模型来应对这一挑战.提出了大数据环境中一种基于Hadoop分布式文件系统(HDFS)和MapReduce编程模型的分布式MOLAP技术,称为DOLAP(distributed OLAP).DOLAP采用一种特殊的多维模型完成维和度量的映射;采用维编码和遍历算法实现维层次上的上卷下钻操作;采用数据分块和线性化算法将维和度量保存在分布式文件系统中;采用数据块选择算法优化OLAP的性能;采用MapReduce编程模型实现OLAP操作.描述了DOLAP在科学数据分析的应用案例,并与主流的非关系数据库系统进行性能对比.实验结果表明,尽管数据装载性能略显不足,但DOLAP的性能要优于基于HBase,Hive,HadoopDB,OLAP4Cloud等主流非关系数据库系统实现的OLAP性能. 宋杰 郭朝鹏 王智 张一川 于戈 Jean-Marc PIERSON关键词:大数据 多维数据模型 OLAP MAPREDUCE 一种能效优化的MapReduce资源比模型 被引量:21 2015年 随着云计算的快速发展,IT资源规模的不断扩大导致能耗问题日益凸显.为降低MapReduce编程模型带来的高能耗,文中研究Map/Reduce任务的资源消费特征及该特征与能效的关系,旨在寻找一种能够指导资源分配和任务调度的资源模型,进而实现能效优化.文中提出任务的能效与任务被分配的资源量无关,而与其被分配的各种资源的资源量比例相关,且存在一个"最佳资源比"使得能效达到最高.基于此,文中首先提出了普适的资源和能效模型,从模型层面证明最佳资源比和能效之间的关系,量化空闲资源量和空闲能耗;随后分析MapReduce编程模型,将普适资源比模型变换到MapReduce下.通过抽象的数据的"生产者-消费者"模式,求解Map/Reduce任务的最佳资源比;最后,通过实验从任务能效和空闲能耗两个角度证明了最佳资源比的存在,并根据实验结果,对MapReduce执行过程进行划分,给出了部分Map/Reduce任务的最佳资源比.最佳资源比的提出和求解将有利于基于该最佳资源比的任务调度和资源分配算法的研究,进而实现Map/Reduce任务能效的提高. 宋杰 刘雪冰 朱志良 李甜甜 赵大哲 于戈关键词:云计算 能效 MAPREDUCE 一种优化MapReduce系统能耗的数据布局算法 被引量:9 2015年 在云计算技术和大数据技术的推动下,IT资源的规模不断扩大,其能耗问题日益显著.研究表明:节点资源利用率不高、资源空闲导致的能源浪费,是目前大规模分布式系统的主要问题之一.研究了MapReduce系统的能耗优化.传统的基于软件技术的能耗优化方法多采用负载集中和节点开关算法,但由于MapReduce任务的特点,集群节点不仅要完成运算,还需要存储数据,因此,传统方法难以应用到MapReduce集群.提出了良好的数据布局可以优化集群能耗.基于此,首先定义了数据布局的能耗优化目标,并提出相应的数据布局算法;接着,从理论上证明该算法能够实现数据布局的能耗优化目标;最后,在异构集群中部署3种数据布局不同的MapReduce系统,通过对比三者在执行CPU密集型、I/O密集型和交互型这3种典型运算时的集群能耗,验证了所提出的数据布局算法的能耗优化效果.理论和实验结果均表明,所提出的布局算法能够有效地降低MapReduce集群的能耗.上述工作都将促进高能耗计算和大数据分析的应用. 宋杰 王智 李甜甜 于戈关键词:能耗优化 MAPREDUCE 大数据 基于混合数据挖掘模型预测用户流失 2017年 用户流失预测问题广泛应用在银行、金融、电信等多种领域。对用户行为进行有效的预测和分析有助于企业的竞争和了解瞬息万变的市场规律。采用3种混合的数据挖掘模型对用户流失问题进行了研究,以形成一个准确高效的用户流失预测模型。这3种模型应用于数据挖掘的两个阶段:聚类阶段和预测分析阶段。在第1阶段中,对用户的数据进行过滤。第2阶段对用户行为进行预测。第1个模型采用了二分k-means算法进行数据过滤和多层感知人工神经网络(MLP-ANN)相结合进行预测。第2个模型采用层次化聚类与MLP–ANN相结合进行预测。第3个模型使用自组织映射(Self-Organizing Maps)与MLP-ANN进行预测。这3种模型预测分析基于真实数据,用户流失率采用3种模型混合计算的方式得出结果并同真实值进行比较。分析结果表明采用多模型的混合数据挖掘模型的数据准确度优于普通的单一模型。 董博 王雪关键词:数据挖掘 人工神经网络 MapReduce连接查询的I/O代价研究 被引量:9 2015年 数据的指数级增长给数据管理和分析带来了严峻的挑战.连接查询是数据分析中一种常用运算,而Map Reduce是一种用于大规模数据集并行处理的编程模型,研究基于Map Reduce的连接查询代价评估和查询优化,有着学术意义和应用价值.Map Reduce连接查询算法的性能主要取决于I/O代价(包括本地和网络I/O),而I/O代价与数据集以及连接运算的特征参数相关,通过对二元连接的I/O代价评估可以优化多元连接执行计划.基于此,首先提出了二元连接查询的I/O代价模型;随后,对现有二元连接算法进行形式化定义和简单扩展,归纳出6种基于Map Reduce连接查询算法,并通过算法白盒分析定义它们的I/O代价函数;最后,提出一种多元连接最优执行计划的选择算法.通过实验表明I/O代价模型的正确性且能够准确地反映算法的性能优劣. 宋杰 李甜甜 朱志良 鲍玉斌 于戈关键词:连接查询 MAPREDUCE 查询优化 基于MapReduce的多元连接优化方法 被引量:3 2016年 多元连接是数据分析最常用的操作之一,MapReduce是广泛用于大规模数据分析处理的编程模型,它给多元连接优化带来新的挑战:传统的优化方法不能简单地适用到MapReduce中;MapReduce连接执行算法尚存优化空间.针对前者,考虑到I/O代价是连接运算的主要代价,首先以降低I/O代价为目标提出一种启发式算法确定多元连接执行顺序,并在此基础上进一步优化,最后针对MapReduce设计一种并行执行策略提高多元连接的整体性能.针对后者,考虑到负载均衡能够有效减少MapReduce的"木桶效应",通过任务公平分配算法提高连接内部的并行度,并在此基础上给出Reduce任务个数的确定方法.最后,通过实验验证本文提出的执行计划确定方法以及负载均衡算法的优化效果.该研究对大数据环境下MapReduce多元连接的应用具有指导意义,可以优化如OLAP分析中的星型连接、社交网络中社团发现的链式连接等应用的性能. 李甜甜 于戈 郭朝鹏 宋杰关键词:负载均衡 一种优化MapReduce系统能耗的任务分发算法 被引量:13 2016年 MapReduce是一种典型的分布式计算模型,一经提出就被迅速应用到大数据处理系统中.文中认为MapReduce系统在能耗方面存在优化空间.对于一个分布式并行计算系统,任务的并行性对任务执行性能影响显著,并行性保证方法在优化性能的前提下还应该考虑系统能耗.在MapReduce系统中,传统的Map任务分发算法采用"小任务多次分发的策略",这种策略虽然保证了并行性,但会浪费节点的处理能力,消耗额外的能量;而Reduce任务分发算法尚不能保证Reduce任务间的并行性.文中提出通过动态地调整Map任务和Reduce任务大小,也即任务处理数据量的规模来保证任务并行性,降低MapReduce系统的整体能耗.文中通过实验证明该方法能够有效地降低典型MapReduce作业的能耗. 宋杰 徐澍 郭朝鹏 鲍玉斌 于戈关键词:MAPREDUCE 能耗 能耗优化 并行性 云计算 基于概率的大数据查询系统——Probery 被引量:2 2016年 针对大数据环境下完整性查询时间代价消耗过高的问题,提出了一种采用近似完整性查询方法的系统——Probery。Probery所采用的近似完整性查询方法不同于传统的近似查询,其近似性主要体现为数据查全的可能性,是一种新型的数据查询方法。Probery首先将存入系统的数据划分为多个数据分段;然后,根据概率放置模型将各个数据分段的数据存储在分布式文件系统中;最后,对于给定的查询条件,Probery采用一种启发式查询方法进行概率查询。通过与其他主流的非关系型数据管理系统的查询性能进行比较,对Probery进行验证,Probery在损失8%查询完整性的情形下,查询时间较HBase相比节约了51%,较Cassandra相比节约了23%,较Mongo DB相比节约了12%,较Hive相比节约了3%。实验结果表明,Probery可以适当地损失查询完整性来提高数据的查询性能,具有较好的通用性、适应性和可扩展性。 伍晋博 宋杰 张莉 鲍玉斌关键词:大数据 概率查询 分布式文件系统 MAPREDUCE 增量式迭代计算模型研究与实现 被引量:8 2016年 不动点迭代广泛存在于数据挖掘和机器学习算法中,这些算法已应用到诸如社会网络分析、高性能计算、推荐系统、搜索引擎、模式识别等诸多领域中.在云计算环境中,利用MapReduce编程模型所带来的便利,通过普通的PC集群运行相应的迭代算法,可以提高迭代算法的执行效率.但由于数据的快速变化,每当数据发生改变,整个迭代算法也需要重新运行,这将会导致大量的运算资源浪费和性能损失.文中研究基于原始迭代结果和新增数据的增量迭代计算DELTA(Delta data based incrEmentaL iTerAtive computing),并提出DELTA模型以解决上述问题.文中理论证明了DELTA模型的正确性,阐述了其适用范围,并列举了PageRank、K-means和Descendant Query算法在DELTA模型中的运用.文中还扩展HaLoop为ΔHaLoop框架,使其支持增量式的迭代计算.通过一系列的测试用例,对DELTA模型功能、性能进行了分析和讨论,实验结果表明DELTA模型在获得准确的迭代结果的基础上性能优势明显.文中提出的DELTA模型能够适应多数迭代算法,对云计算环境下的迭代计算的应用和优化起到推动作用. 宋杰 郭朝鹏 张一川 张岩峰 于戈关键词:云计算 MAPREDUCE 迭代计算 增量迭代