曹越
- 作品数:4 被引量:32H指数:2
- 供职机构:清华大学软件学院更多>>
- 发文基金:中国博士后科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 基于运行数据分析的Spark任务参数优化
- 运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一.基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息.Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据...
- 陈侨安李峰曹越龙明盛
- 面向近似近邻查询的分布式哈希学习方法
- 近似近邻查询是管理大规模非结构化数据的一项基本而重要的技术,在数据挖掘、多媒体检索等研究领域中有着广泛的应用。随着数据规模的指数式增长,如何对大规模高维数据进行快速、准确的查询并降低索引系统的存储和计算开销,成为近年来备...
- 文庆福朱晗曹越龙明盛
- 基于运行数据分析的Spark任务参数优化被引量:22
- 2016年
- 运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难。提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。
- 陈侨安李峰曹越龙明盛
- 关键词:大数据运行数据数据分析参数优化SPARK
- 面向近似近邻查询的分布式哈希学习方法被引量:10
- 2017年
- 近似近邻查询是信息检索领域中的一项重要技术.随着文本、图像、视频等非结构化数据规模的迅速增长,如何对海量高维数据进行快速、准确的查询是处理大规模数据所必须面对的问题.哈希作为近似近邻查询的关键方法之一,能够在保持数据相似性的条件下对高维数据进行大比例压缩.以往所提出的哈希方法往往都是应对集中式存储的数据,因而难以处理分布式存储的数据.该文提出了一种基于乘积量化的分布式哈希学习方法SparkPQ,并在Spark分布式计算框架下实现算法.在传统的乘积量化方法的基础上,该文首先给出了分布式乘积量化模型的形式化定义.然后,作者设计了一种按行列划分的分布式矩阵,采用分布式K-Means算法实现模型求解和码本训练,利用训练出的码本模型对分布式数据进行编码和索引.最终,该文构建了一套完整的近似近邻查询系统,不仅可以大幅降低存储和计算开销,而且在保证高检索准确率的条件下加速查询效率.在较大规模的图像检索数据集上进行的实验验证了方法的正确性和可扩展性.
- 文庆福王建民朱晗曹越龙明盛
- 关键词:高维索引分布式计算SPARK